Prévia do material em texto
NATHALIA NIEUWENHOFF Análise comparativa de técnicas de classificação de dados aplicadas para identificação dos determinantes de decisão do consumo de filmes em salas de cinema no Brasil São Paulo 2016 NATHALIA NIEUWENHOFF Análise comparativa de técnicas de classificação de dados aplicadas para identificação dos determinantes de decisão do consumo de filmes em salas de cinema no Brasil. Qualificação apresentada à Escola de Artes, Ciências e Humanidades da Universidade de São Paulo para obtenção do título de Mestre em Ciências pelo Programa de Pósgraduação em Sistemas de Informação. Área de Concentração: Metodologia e Técnicas da Computação Orientador: Profa. Dra. Marislei Nishijima São Paulo 2016 Exame de Qualificação de autoria de Nathalia Nieuwenhoff, sob o título "Análise comparativa de técnicas de classificação de dados aplicadas para identificação dos determinantes de decisão do consumo de filmes em salas de cinema no Brasil", apresentada à Escola de Artes, Ciências e Humanidades da Universidade de São Paulo, para obtenção do título de Mestre em Ciências pelo Programa de Pósgraduação em Sistemas de Informação, na área de concentração Metodologia e Técnicas da Computação, aprovada em _____ de _____________________ de ________ pela comissão julgadora constituída pelos doutores: Prof. Dr. __________________________________________ Presidente Instituição: _____________________________________ Prof. Dr. __________________________________________ Instituição: _____________________________________ Prof. Dr. __________________________________________ Instituição: _____________________________________ Prof. Dr. __________________________________________ Instituição: _____________________________________ Resumo As tarefas de classificação ou categorização de dados, conhecida também como técnicas de reconhecimento de padrões e seleção de variáveis estão sendo cada vez mais utilizadas no contexto de extração de informações ou padrões em bases de dados volumosas. A partir disso, a aplicação de técnicas de reconhecimento de padrões para identificação dos determinantes dos padrões de consumo de um bem de informação é uma tarefa complexa e pouco explorada no mercado brasileiro. Este trabalho apresenta um análise comparativa da aplicação de duas técnicas de aprendizagem de máquina para classificação de dados, baseadas em aprendizado supervisionado, sendo estas Naive Bayes e Support Vector Machine, para identificação dos determinantes de padrões de consumo de um bem de informação, filmes em salas de cinema no Brasil, a partir dos dados obtidos na Pesquisa de Orçamento Familiar (POF) 20082009, pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Palavraschave: Algoritmos de classificação. Bens de Informação. Seleção de recursos. Seleção de variáveis. Consumo. Abstract The task classification or categorization data, also known as pattern recognition techniques and variables selection are being increasingly used in the context of extracting information or patterns in large databases. From this, the application of pattern recognition techniques to identify the determinants of consumption patterns of a good information is complex and little explored in Brazil. This paper presents a comparative analysis of the application of two machine learning techniques for data classification based on supervised learning, Naive Bayes and Support Vector Machine (SVM), to identify the determinants of consumption patterns of a good information, movies in Brazilians cinemas, based on data obtained from the Pesquisa de Orçamento Familiar ( POF ) 20082009 by the Instituto Brasileiro de Geografia e Estatística (IBGE). Keywords: Classification Algorithm. Good information. Feature Selection. Variable Selection. Consumption. Sumário 1 Introdução 6 1.1 Justificativa e Motivação 7 1.1.1 Objetivos 12 1.1.2 Estrutura do documento 13 2 Fundamentação teórica 14 2.1 Descoberta do conhecimento 14 2.2 Classificação 16 2.3 Regressão 17 2.4 Agrupamento 17 2.5 Associação 17 2.6 Descrição 18 2.7 Aprendizado de Máquina 18 3 Metodologia de Pesquisa 20 3.1 Revisão Bibliográfica 20 3.2 Revisão Sistemática 20 3.2.1 Validação dos algoritmos de classificação 20 4 Revisão Sistemática 25 4.1.1 Questões de pesquisa 25 4.2 Estratégia de busca para seleção de estudos 25 4.2.1 Uma seção terciária 26 4.3 Outra seção secundária 27 4.4 Condução 28 4.5 Resultados 28 4.6 Discussão e Resultados 37 5 Cronograma 39 Referências 39 7 1 Introdução A evolução tecnológica constante resultou na mudança da lógica de consumo de alguns bens, devido à facilidade de acesso à informação, as pessoas não necessariamente precisam se deslocar ou pagar diretamente para terem acesso a determinados bens de informação, como os filmes nas salas de cinema, visto que estes se encontram disponíveis na internet ou, também, através dos recursos da pirataria, por exemplo. Neste contexto, o consumo e seus meios utilizados indicam não somente as preferências dos indivíduos, mas, também, exprimem o que estes consideram socialmente prioritário e essencial. Ao mesmo tempo, o consumo de cultura, a partir dos bens de informação, é capaz de exprimir a situação de capital econômico, social e cultural das pessoas, de suas respectivas famílias e dos grupos nos quais estão inseridos de forma relacionada. Os padrões de decisão do consumo são parte de uma composição de variáveis culturais, econômicas e sociais segregadas e agrupadas ao mesmo tempo, dessa forma, identificar tais padrões se trata de uma tarefa desafiadora devido à complexidade de tais fatores e a heterogeneidade envolvida. A partir destes aspectos, a necessidade de identificar padrões precisos e úteis nos dados tem exigido um aprofundamento contínuo do estudo de técnicas computacionais que otimizem e automatizem tais atividades e, dentro do contexto de Knowledge Discovery in Databases (KDD), a Mineração de dados, ou Data mining, tratase de uma etapa deste processo, que consiste na aplicação das técnicas computacionais em si para geração de conhecimento. Dentre as técnicas de mineração de dados atuais, o processo classificação é capaz de identificar um conjunto de modelos que segregam classes ou grupos e, a partir do modelo, predizer a classe que os objetos ainda não classificados pertencem. A partir disso, a escolha da abordagem e da técnica de reconhecimento de padrão ou até mesmo uma combinação de uma ou mais técnicas está diretamente relacionada com o problema e ao contexto em que este se aplica. Dessa forma, este trabalho tem como objetivo aplicar a mineração de dados utilizando dois algoritmos de aprendizagem de máquina classificadores, sendo estes Naive Bayes e Support Vetor Machine (SVM), para identificação de padrões de consumo de um bem de informação, filmes nas salas de cinema pelos brasileiros, bem como efetuar a análise comparativa dos resultados obtidos a partir destes algoritmos, considerando medidas relacionadas à precisão das técnicas aplicadas, bem como seus desempenhos computacionais. Os algoritmos serão aplicados na base dos dados coletados na Pesquisa de Orçamento 8 Familiar (POF), realizada em um período de 12 meses entre os anos 2008 e 2009 e disponibilizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE). 1.1 Justificativa e Motivação Segundo Canclini (1999), o consumo consiste no “conjunto de processos socioculturais nos quais se realizam a apropriação e o uso dos produtos”. A partir disso, o consumo possui a capacidade de agrupar as pessoas, bem como distinguilas e classificálas,afinal, através dele é possível se dizer sobre quem consome, identificar características sociais, culturais e econômicas dos indivíduos e como elas estão relacionadas. O Ministério Brasileiro da Cultura (2007) reforça esta ideia afirmando que “o consumo cria ordem, classifica as pessoas e as associa aos bens; enfim, o consumo ordena informações e organiza significados sobre as estruturas sociais”. Neste cenário, o consumo está diretamente relacionado à cidadania e ao direito, em suas variadas esferas. No aspecto social, está conexo ao direito de acesso aos bens e serviços. Dessa forma, o consumo cultural diz respeito sobre a organização de uma sociedade e é um meio de se estabelecer condições para o exercício da cidadania, formação de indivíduos, bem como a participação destes no contexto político e social. A partir disso, os padrões de decisão do consumo são parte de uma composição de variáveis culturais, econômicas e sociais e identificar tais padrões, tratase de uma tarefa desafiadora devido às múltiplas variáveis envolvidas e à necessidade de se mapear como tais variáveis se relacionam. Adicionalmente, o consumo de cultura aplicada aos bens de informação, que segundo Shapiro e Varian (1999), bem de informação ou good information é um bem que pode ser digitalizado ou codificado como um fluxo de bits, que independente da fonte particular de valor, as pessoas estão dispostas a pagar para obtêlo ou consumilo, a partir disso, filmes, músicas, páginas na web são alguns dos exemplos de bens de informação, além dos aspectos gerais do consumo, possuem como desafio direto a evolução tecnológica constante. Afinal, os meios de reprodução de tais bens de informação são amplamente variados e vem sofrendo uma mudança significativa na lógica de seu consumo. Diniz (2009) afirma que o consumo cultural é afetado diretamente pelas variáveis socioeconômicas, educacionais e sócio demográficas de quem consome e, também, pelas variáveis geográficas que indicam não somente aspectos culturais, mas também variações de oferta dos produtos em cada região. Adicionalmente, as experiências sociais que os 9 consumidores estão sujeitos influenciam suas preferências, dessa forma, estas são afetadas diretamente pelo capital pessoal, ou seja, experiências pessoais e individuais dos consumidores, bem como pelo capital social, experiências e influências proporcionadas pelo meio social que os consumidores estão inseridos. Dessa forma, o estudo dos determinantes de consumo de cultura requer o mapeamento das restrições e influências que o consumidor e os grupos nos quais este está inserido sofrem, resultando, assim, no entendimento aprofundado do público alvo de consumo. Reforçando esta ideia, Throsby (1999) afirma que os produtos culturais, o que inclui os bens de informação, possuem valores de uso que são compostos pelos produtos culturais materializados e os que possuem valor simbólico, dessa forma, notase que a atribuição de valor a eles não é uma tarefa trivial, afinal, é preciso conhecer mais detalhadamente características especiais destes bens, bem como as de quem os consome. Aplicando este contexto ao cenário brasileiro, o Brasil além de ser um país conceitualmente dividido em cinco grandes regiões, é um país multicultural, o que torna ainda mais complexa a tarefa de mapeamento e identificação dos padrões de consumo da sua população, afinal, além de sua cultura estar sujeita a um conjunto de incentivos financeiros com recursos públicos disputados que são aplicados, muitas vezes, sem nenhum grau de conhecimento do padrão de consumo, conforme afirmado por Hofstede (2010), as diferenças culturais entre as regiões do país são significativas, tornando ainda mais complexa a tarefa de definição de padrão de consumo do brasileiro de forma geral. Neste contexto, visto que o consumo de cultura aborda a noção de cidadania impactada pelo acesso, classificar os indivíduos e identificar padrões de consumo de cultura, através dos bens de informação, tornase cada vez mais necessário para os recursos públicos serem capazes de estabelecer políticas públicas voltadas ao setor eficazes e, ao mesmo tempo, reduzir o consumo ilegal dos bens de informação, combatendo iniciativas como a pirataria, por exemplo. Adicionalmente, de acordo com Silva (2008), a administração pública do Brasil não possui dados consistes e precisos sobre as práticas culturais dos brasileiros e como estas se refletem nas diversas regiões do país, bem como sobre os hábitos de consumo cultural da sua população, ocasionando, assim, a elaboração de políticas públicas culturais ineficazes e que não atendem às necessidades para um consumo cultural efetivo e acessível à população brasileira. Em paralelo, é de alto interesse das empresas responsáveis pela produção e reprodução de tais bens de informação a identificação de padrões de consumo no contexto de auxiliar as estratégias de venda e divulgação de tais bens para um público alvo mais preciso, 10 bem como identificar e prever cenários de evolução tecnológica, possíveis concorrências e meios para veiculação de tais bens maximizando lucros e aumentando a satisfação de seus clientes. Além do contexto cultural e social, a relevância do consumo de cultura em relação ao bem de informação, filmes em sala de cinemas brasileiros, é reforçada no aspecto econômico, afinal, de acordo com o Ministério Brasileiro da Cultura (2007), o consumo cultural da população é parte não somente de investimentos públicos e privados, bem como do Produto Interno Bruto (PIB) dos indivíduos. Segundo o estudo de Valor Adicional do setor de audiovisual efetuado pela Agência Nacional de Cinema (ANCINE), agência reguladora e fiscalizadora do mercado brasileiro de cinema e do audiovisual, as atividades econômicas do setor de audiovisual, que “compreende a indústria cinematográfica e videofonográfica do país, isto é: os agentes de produção, distribuição e exibição dos segmentos de cinema (salas de exibição), TV paga (comunicação eletrônica de massa por assinatura), TV aberta (radiodifusão de sons e imagens), vídeo doméstico, vídeo por demanda e mídias móveis, apresentaram uma renda de R$22,9 bilhões na economia brasileira referente ao valor adicional do setor, bem como vem apresentado evolução do tamanho do setor entre os anos de 2007 a 2013. Segundo o Instituto Brasileiro de Geografia e Estatística (IBGE), Valor Adicionado “referese ao valor que a atividade acrescenta aos bens e serviços consumidos no seu processo produtivo”. Adicionalmente, segundo o Informe Anual de Acompanhamento de Mercado emitido pela ANCINE, o ano de 2009, período dos dados a serem utilizados neste trabalho, registrou um público total de 112.683.383 espectadores, que corresponde a uma renda no valor de R$ 969.783.735,77. Estes números representam o maior público dos últimos cinco anos, bem como um crescimento de 25,26% e 32,93%, no público e renda, respectivamente, referente ao ano anterior, 2008. Abaixo, o gráfico 1 demonstra a evolução contínua do setor, medido segundo o seu valor adicionado no período de 2007 a 2013. Já o gráfico 2 apresenta a evolução do valor adicionado pelo setor audiovisual em termos reais, demonstrando uma expansão de 8,8% ao ano no período, que é expressivamente superior à média de todos os setores da economia no período observado (vide comparação apresentada no gráfico 2). Gráfico 1 – Valor adicionado pelo setor audiovisual (R$ bilhões correntes) 11 Fonte: IBGE, 20072013. Gráfico2 – Valor adicionado pelo setor audiovisual e Valor adicionado total: variações anuais reais (%) Fonte: IBGE, 20072013. A partir disso, o maior conhecimento permite que se avalie mais precisamente os recursos envolvidos para garantir sua otimização neste setor, que é relevante para o país. Porém, o cenário de consumo cultural, conforme detalhado anteriormente, possui um conjunto complexo de variáveis, bem como requer a manipulação de bases de dados volumosas, devido não só ao tamanho da população brasileira, mas também aos fatores sociais, culturais e econômicos que estão relacionados, a maioria dos estudos sobre tais padrões de consumo que envolvem os bens de informação se baseia em análises qualitativas sem o uso sistemático de informações quantitativas, bem como a combinação destas. Em paralelo, devido à quantidade e complexidade de tais dados, a exploração manual destes para geração de conhecimento se torna inviável, necessitando, assim, da aplicação de técnicas automatizadas para tal fim. Com o objetivo de reduzir a complexidade do problema relacionado à manipulação e a identificação do relacionamento entre tais dados para auxílio nas tomadas de decisões de forma que se atinja uma precisão ótima nos padrões identificados 12 e, em paralelo, não comprometa o desempenho computacional das aplicações, visto que, nos dias atuais, estas estão cada vez mais exigentes, tais técnicas estão sendo cada vez mais estudadas, aplicadas e desenvolvidas. Dessa forma, o interesse na área de Reconhecimento de padrões, que segundo Schalkoff (1991), tratase do estudo de descrição e classificação de medições, tem crescido muito nos últimos anos e está em constante desenvolvimento, visto que se trata de uma tarefa de classificação ou categorização de dados, cujo objetivo é discriminar amostras de objetos e classificar corretamente as amostras futuras. Neste contexto, tais fatores conduziram a exploração e desenvolvimento da técnica de extração de conhecimento em banco de dados volumosos, nãotriviais e dinâmicos, também conhecida como Knowledge Discovery in Databases (KDD), para geração de conhecimento a partir de padrões de dados válidos, complexos e potencialmente úteis (Fayyad, Shapiro e Smyth, 1996). A Mineração de dados, ou Data mining, tratase de uma etapa deste processo, que consiste na aplicação das técnicas computacionais em si para geração de conhecimento a partir de tais bases de dados. A aplicação da mineração de dados requer, inicialmente, que dois fatores sejam considerados, sendo eles a tarefa e a técnica de mineração. A tarefa consiste na definição e detalhamento do objetivo da exploração dos dados, ou seja, qual(is) é(são) a(s) categoria(s) de padrões que se deseja obter. Já a técnica se trata do método a ser utilizado para obtenção de tais padrões de interesse. Atualmente, há diversas técnicas de mineração, dentre elas as estatísticas e de aprendizado de máquina, por exemplo. Em relação às tarefas, estas se subdividem, basicamente, em Análise de Regras de Associação, Análise de Padrões Sequenciais, Classificação e Predição, Análise de Agrupamentos e Análise de Outliers. A identificação de padrões de consumo de bens de informação, especificamente, filmes em salas de cinema no Brasil, principalmente no que se refere à aplicação da mineração de dados para obtenção de tais informações, tratase de um aspecto pouco explorado até então, o que motivou a realização deste trabalho. Neste contexto, a aplicação da tarefa de Classificação dos dados, cuja função é examinar o conjunto de registros marcados com seus atributos correspondentes e identificar as características (variáveis) que definem tais classes, predizendo, assim, as classes que os registros ainda não classificados pertencem, possibilita identificar, de forma automatizada, precisa e a partir do relacionamento de dados quantitativos e qualitativos, as variáveis que influenciam na decisão de consumo dos bens de informação, podendo, assim, auxiliar os 13 recursos públicos na definição de políticas públicas que viabilizam o acesso legal a estes bem, bem como auxiliar recursos privados nas estratégias de vendas e produção. A partir disso, a contribuição deste trabalho é focada na aplicação e análise comparativa de dois algoritmos de aprendizagem de máquina para classificação de dados popularmente utilizados, sendo eles Naive Bayes e Support Vetor Machine (SVM), para identificação de padrões de consumo de filmes em sala de cinema nacional, bem como as vantagens e desvantagens da utilização de cada um destes, a partir das métricas relacionadas à precisão de cada uma destas, bem como seus desempenhos computacionais, conforme as classes de brasileiros que assistiram ou não filmes em salas de cinema no Brasil durante os 12 meses entre os anos 2008 e 2009, a partir do grande volume de dados disponível da Pesquisa de Orçamento Familiar (POF) realizada pelo Instituto Brasileiro de Geografia e Estatística. 1.1.1 Objetivos Considerando como premissa que a mineração de dados, através da aplicação de algoritmos de aprendizagem de máquina para classificação, está, nos dias atuais, sendo amplamente utilizada de forma multidisciplinar nos mais variados contextos, esta também pode ser aplicada para identificação de padrões de consumo de um bem de informação. Diante disso, o principal objetivo deste trabalho é efetuar a aplicação da mineração de dados, a partir de dois algoritmos atuais e populares de classificação, sendo estes Naive Bayes e Support Vetor Machine (SVM), para reconhecimento dos padrões do consumo de filmes em salas de cinema no Brasil pelos brasileiros, bem como efetuar uma análise dos seus resultados da aplicação de ambas as técnicas, a partir de medidas relacionadas à precisão e desempenho computacional. Para atingir o objetivo geral deste trabalho, os seguintes objetivos específicos foram estabelecidos: • Efetuar uma revisão bibliográfica sobre as técnicas de mineração de dados e reconhecimento de padrões e seus respectivos algoritmos de aplicação; • Efetuar uma Revisão Sistemática (RS) sobre a aplicação das técnicas de mineração de dados e reconhecimento de padrões para identificação de determinantes de consumo de forma geral; • Aplicar o processo de KDD, tendo como parte dele a mineração de dados, a partir das técnicas de classificação dos dados da Pesquisa de Orçamento Familiar 20082009 (POF) utilizando os algoritmos Naive Bayes e Support Vetor Machine (SVM), com o objetivo 14 de identificar os padrões do consumo dos brasileiros em relação ao bem de informação, filmes em salas de cinema no Brasil; • Apresentar análise comparativa dos resultados obtidos a partir da aplicação de tais técnicas de mineração de dados para identificação dos padrões de consumo do bem de informação em questão, conforme as medidas de precisão das técnicas, bem como seu respectivo desempenho computacional, apresentando, neste contexto, suas vantagens e desvantagens. Adicionalmente, buscase com este trabalho oferecer como resultado aos pesquisadores da área a partir da aplicação das técnicas em um objeto pouco explorado neste aspecto, bem como às empresas do setor e governo que podem utilizar os resultados obtidos para otimização de seus processos e especificação de novos projetos. 1.1.2 Estrutura do documento Esta dissertação é composta por cinco capítulos, sendo o primeiro deles a introdução ao tema, subdivididos da seguinte forma: • O capítulo 2 contém a fundamentação teórica do trabalho, a partirda contextualização e a revisão bibliográfica, apresentando os principais conceitos relacionados a Knowledge Discovery in Databases (KDD), Mineração de dados e suas respectivas tarefas e técnicas, com ênfase nos algoritmos de aprendizagem de máquina para classificação de dados. • O capítulo 3 apresenta a metodologia de pesquisa utilizada neste trabalho para aplicação dos dois algoritmos de aprendizagem de máquina para classificação de dados, sendo estes Naive Bayes e Support Vetor Machine (SVM), na base de dados da Pesquisa de Orçamento Familiar (POF) 20082009 do Instituto Brasileiro de Geografia e Estatística (IBGE). • O capitulo 4 apresenta a condução e os resultados da Revisão Sistemática (RS) referente aos trabalhos de aplicação dos algoritmos de aprendizagem de máquina para reconhecimento de padrões de consumo. • O capítulo 5 apresenta os resultados, bem como a análise comparativa das técnicas de classificação de dados aplicadas para identificação de padrões de consumo de filmes em salas de cinema no Brasil. • O capítulo 6 apresenta a conclusão do trabalho, destacando às suas principais contribuições, suas limitações e trabalhos futuros. 15 2 Fundamentação teórica 2.1 Descoberta do conhecimento O modelo tradicional que efetua a transformação dos dados em conhecimento consiste no processamento dos dados por especialistas que apresentam estes de forma que possam ser analisados, porém, nos dias atuais devido a automação dos processos e, principalmente, ao elevada quantidade de dados relacionados, que podem se encontrar até em fontes distintas, tal prática se torna inviável. A partir disso, foi apresentado o conceito de Descoberta de conhecimento das bases de dados, também denominado Knowledge Discovery in Databases (KDD) (Fayyad, Shapiro e Smyth, 1996). De acordo com Amo e Rocha (2003), o conceito de KDD e Mineração de dados (Data mining) é considerado sinônimo por algumas literaturas, outras, porém, consideram a Mineração de dados como uma etapa do processo de KDD, conforme detalhamento das etapas do processo em questão: 1. Limpeza dos dados: consiste na eliminação de dados inconsistentes, incorretos ou incompletos. 2. Integração dos dados: consiste na junção e combinação dos dados apresentados de forma fragmentada, consolidando em apenas um fonte de dados centralizada. 3. Seleção dos dados: consiste na definição dos atributos e variáveis que são relevantes para aplicação das técnicas em questão, a partir do conhecimento do tema. 3. Transformação dos dados: consiste na adequação dos dados para aplicação dos algoritmos de mineração. Segundo Camilo e Silva (2008), não há um critério específico para execução desta etapa, bem como a técnica a ser utilizada depende dos objetivos pretendidos, como por exemplo, a normalização, que consiste na inserção de variáveis em uma mesma escala, agrupamento, que se trata da junção de valores, ou até mesmo a criação de novos atributos, a partir de combinações dos já existentes. 4. Mineração: aplicação dos algoritmos de aprendizagem de máquina para extração dos padrões. 5. Avaliação ou Pósprocessamento: consiste na análise dos resultados obtidos na etapa anterior, referente às variáveis que determinam a classificação dos dados e identificação de padrões. 16 6. Visualização dos Resultados: consiste na apresentação do conhecimento obtido a partir da base de dados utilizada aos usuários ou partes interessadas. Conforme representação do processo de KDD na Figura 1. Figura 1 – Etapas dos processos de KDD Fonte: Amo e Rocha, 2003 Segundo Fayyad, Shapiro e Smyth, 1996, o termo Mineração de Dados ou Data Mining, pode ser definido como um "passo no processo de Descoberta de Conhecimento que consiste na realização da análise dos dados e na aplicação de algoritmos de descoberta que, sob certas limitações computacionais, produzem um conjunto de padrões de certos dados". Segundo Camilo e Silva (2009), apesar do processo de mineração de dados suportar a descoberta do conhecimento de um volume elevado de dados, este processo não é puramente automático até o momento. A partir disso, existe uma série de ferramentas para execução dos algoritmos de mineração, bem como a análise dos resultados ainda precisa ser efetuadas por seres humanos. No contexto de mineração de dados, é importante destacar os conceitos de tarefa e técnica de mineração. Segundo Viana e Bueno (2012), a tarefa se refere na especificação do objetivo de busca do dado, ou seja, o tipo de categoria e informação que se deseja obter. Já a técnica se refere no método que vai ser utilizado para executar a tarefa definida, ou seja, o que será feito para descobrir o padrão que interessa, esta pode se dividir em diversos tipos, sendo por exemplo, estatística, aprendizado de máquina, crescimento podavalidação, entre outros. Camilo e Silva (2009) afirmam que o processo de mineração de dados possui diversos tipos de tarefas para suportálos, sendo estas: 2.2 Classificação 17 A Classificação consiste na análise das características dos dados para atribuição a uma categoria específica previamente definida. Para isso, cada registro possui os atributos de predição, em como o alvo. Podendo ser utilizada para identificar pessoas, classificar objetos e diagnosticar doenças, por exemplo. Suas principais técnicas são: • Árvores de decisão (decision trees), que consistem na representação do conhecimento a partir de um número finito de classes. Ou seja, a partir da variável de avaliação definida, o algoritmo retorna as características associadas a ela a partir dos “ramos da árvore.” Os nós correspondem aos atributos, as ligações entre os nós representam os valores para tais atributos e as folhas representam diferentes classes. A partir disso, após a definição da área, para realização de um novo registro, é necessário seguir a árvore, cujo início é a raiz. • Naive Bayes, que consiste em uma técnica baseada em probabilidade, fundamentada a partir do teorema de Thomas Bayes, que é a probabilidade de um evento ocorrer, dada a probabilidade de outro que já ocorreu. Ou seja, Probabilidade (Y dado X) = Probabilidade(X e Y) / Probabilidade(X). • Classificação baseada em regras, que é similar a Associação, visto que possui o seguinte formato, SE condição ENTÃO conclusão, cujo objeto é criar associações, pares de registros que possuem similaridade. • Redes neurais (Neural Network), que são baseadas no conceito de neurônio artificial análogo ao neurônio neural, envolvendo estruturas matemáticas que possuem habilidade de aprendizado, dessa forma, cada unidade de entrada e saída é interligada às outras por conexões que possuem pesos particulares, variando entre 1 e 1, que correspondem a intensidade da conexão. Apesar da técnica em questão ter a capacidade de identificar padrões para os quais não foi treinada técnica em questão requer um longo período para treinamento, ajustes detalhados em seus parâmetros, bem como é complexa para utilização. • Support Vector Machine (SVM), que são utilizadas para classificação de dados em duas classes, cujos resultados apresentados com experimentos apresentam altos índices de assertividade, possibilitando modelar situações complexas de fácil interpretação, em contrapartida, seu tempo de aprendizado, geralmente, acaba sendo mais demorado. • Classificação baseada em regras de associação, que se trata da aplicação das regras de associação para classificação de dados é uma abordagem recente, cujo objetivo é basicamente analisar os dados de treinamento para que seobtenha os itens frequentes, e a partir destes são geradas as regras para classificação dos dados. 18 • Algoritmos genéticos, que consiste na técnica baseada na teoria da evolução, a partir disso, a população inicial é aleatória e a seguinte é originada a partir da evolução da anterior, em que seus atributos passagem por um processo de mutação, até que os atributos atinjam ao objetivo proposto. Uma das diferenças desta técnica em relação as demais é que esta trabalha com uma população e não somente um único ponto, utilizando regras de transição probabilísticas e não determinísticas (ICMC). 2.3 Regressão A Regressão é similar a categorização, porém, consiste na tarefa de identificação do registro a partir de um valor numérico e não categórico. A partir disso, a regressão possui técnicas conhecidas como Regressão Linear, que se refere à técnica em que a relação da variável preditora e a predição possuem comportamentos lineares, a partir disso, o que possibilita relacionar uma variável preditora a uma ou mais predições; e Regressão nãolinear, este tipo de regressão a em que a relação da variável preditora e a predição não possuem comportamentos lineares. 2.4 Agrupamento O agrupamento (Clustering), consiste na tarefa de aproximação/agrupamento dos registro com base nas similaridades entre eles, segmentando os bancos de dados em grupos ou subconjunto, porém, não requerendo que estes estejam previamente categorizados, visto que o próprio algoritmo é capaz de descobrir as classes. Uma das técnicas mais utilizadas nesta tarefa é o kmeans, cuja função, basicamente, é dividir os dados em subconjuntos, também denominados clusters, cujo total destes clusters é definido inicialmente; e 2.5 Associação A associação consiste na tarefa de identificação dos relacionamento dos atributos, no formato de SE...ENTÃO. A partir disso, o objetivo da tarefa em questão é identificar, por exemplo, se X implica em Y. Sua implementação geralmente ocorre a partir de técnicas como Apriori, sampling, DHP, entre outras (Pimentel e Omar, 2006). 19 2.6 Descrição A descrição consiste na tarefa de descrever os padrões revelados pelos dados, sendo muito utilizada no contexto de análise exploratória de tais dados. Adicionalmente, notase que as tarefas de mineração de dados possuem funções distintas e precisam ser escolhidas de acordo com o problema e com o tipo de conhecimento que precisa ser gerado, e para cada tarefa, há diversos tipos de técnicas que podem ser executadas de forma isolada ou combinadas para a realização das atividades de mineração de dados, a decisão por tais combinações dependem de fatores relacionados a desempenho computacional e grau de precisão de cada técnica aplicada a cada situaçãoproblema. 2.7 Aprendizado de Máquina O Aprendizado de Máquina (AM) é uma área da Inteligência Computacional que estuda o desenvolvimento de métodos que possibilitam a extração de conhecimento a partir de dados, com isso, é avaliado a capacidade de um programa de computador aprender a melhorar seu desempenho para executar determinada tarefa, a partir de experiências passadas (Mitchell, 1997). Adicionalmente, de acordo com Han (2006), o processo de desenvolvimento das técnicas de Aprendizado de Máquina foi baseado em diversas áreas do conhecimento, como por exemplo, sistemas biológicos, o que gerou as Redes Neurais e Algoritmos genéricos, que possuem como associação o aprendizado humano (cérebro) e evolução genética, respectivamente, bem como aprendizado simbólico, representado pelas Árvores de decisão, ou também, nas Teorias estatísticas, o que resultou em ténicas como Support Vector Machine (SVM). Segundo Han (2006), o Aprendizado de Máquina é aplicado no processo de indução, que consiste em um conjunto de treinamento de um classificador para previsão das classes do domínio para o qual foi treinado. As técnicas de AM podem ser classificadas em dois tipos de paradigmas, Aprendizado Supervisionado e Aprendizado NãoSupervisionado (Haykin, 2009), e a escolha destes paradigmas determina como tal aprendizado ocorrerá a partir de uma base de dados. Estas classificações se distinguem a partir dos aspectos detalhados abaixo: • O Aprendizado Supervisionado consiste no treinamento a partir de uma pré categorização dos dados, ou seja, exemplos que são compostos pelo objeto de entrada e o valor de saída esperado, tendo, assim, a figura de um “professorexterno”. A partir disso, 20 treinamento do algoritmo acontece a partir da análise dos dados de treinamento para produção de uma saída inferida já apresentada, podendo, posteriormente, ser aplicado para classificação de outros dados de entrada do mesmo domínio. Árvores de Decisão, KNearest Neighbour (KNN), Naive Bayes e Support Vector Machine (SVM) são exemplos de algoritmos que tratam este tipo de aprendizado de máquina. • O Aprendizado NãoSupervisionado consiste em identificar uma estrutura não conhecida sem uma saída já definida, ou seja, não há essa figura de “professor”, o algoritmo aprende a agrupar as entradas, a partir das relações, padrões, categorias, entre outros, que identifica, codificando a saída, com base em uma medida de similaridade entre os atributos. Clustering, Estatística, Self Organizing Map (SOM), Kmeans são exemplos de algoritmos que tratam este tipo de aprendizado de máquina. 21 3 Metodologia de Pesquisa 3.1 Revisão Bibliográfica Para levantamento do conhecimento atual veiculado na literatura especializada e referenciais teóricos sobre Knowledge Discovery in Databases (KDD), Mineração de dados, Aprendizagem de máquina e suas respectivas tarefas e técnicas, com ênfase nos algoritmos para Classificação de dados foi conduzida, incialmente, uma Pesquisa Bibliográfica sobre tais temas. 3.2 Revisão Sistemática Posteriormente, para entendimento da aplicação de tais algoritmos de mineração de dados para identificação de padrões de consumo foi conduzida uma Revisão Sistemática (RS), que segundo Biolchini (2005), tratase um método de pesquisa do conhecimento científico por meio de coleta, combinação e avaliação crítica das descobertas das abordagens já apresentadas, seguindo, assim, as diretrizes estabelecidas por Kitchenham (2007). A condução da revisão possibilitou conhecer a aplicação de tais técnicas comumente utilizadas no contexto de identificação de padrões de consumo de bens de informação, além de conhecer as principais vantagens e desvantagens destas para o contexto em que foram aplicadas, bem como os principais desafios encontrados referente a área de aplicação deste trabalho, o que auxiliou na escolha das duas técnicas de classificação de dados aplicadas, Naive Bayes e Support Vetor Machine (SVM), visto que estão entre as mais utilizadas e apresentaram resultados positivos nos trabalhos analisados durante a RS. 3.2.1 Validação dos algoritmos de classificação Para a aplicação das técnicas de classificação dos dados da Pesquisa de Orçamento Famíliar (POF) realizada durante os 12 meses entre os anos de 20082009 pelo Instituto Brasileiro de Geografia e Estatística (IBGE), inicialmente, foi efetuado o entendimento dos dados contidos da base de dados em questão, conforme detalhado na seção 3.3.1, a partir de seu layout, descritivo de tabelas e relacionamento entre elas e, sequencialmente, foram 22 aplicadas todas as etapas previstas no processo de Knowledge Discovery in Databases (KDD), sendo estas: 1. Limpeza dos dados: consiste na eliminação de dados inconsistentes, incorretos ou incompletos.2. Integração dos dados: consiste na junção e combinação dos dados apresentados de forma fragmentada, consolidando em apenas um fonte de dados centralizada. 3. Seleção dos dados: consiste na definição dos atributos e variáveis que são relevantes para aplicação das técnicas em questão, a partir do conhecimento do tema; 4. Transformação dos dados: consiste na adequação dos dados para aplicação dos algoritmos de mineração. 5. Mineração: aplicação dos algoritmos de aprendizagem de máquina para extração dos padrões. 6. Avaliação ou Pósprocessamento: consiste na análise dos resultados obtidos na etapa anterior, referente às variáveis que determinam a classificação dos dados e identificação de padrões. 7. Visualização dos Resultados: consiste na apresentação do conhecimento obtido a partir da base de dados utilizada aos usuários ou partes interessadas. De acordo com o IBGE, a Pesquisa de Orçamentos Familiares – POF se trata de uma “pesquisa domiciliar por amostragem, que investiga informações sobre características de domicílios, famílias, moradores e principalmente seus respectivos orçamentos, isto é, suas despesas e recebimentos.”, cuja duração é de 12 meses de coleta das informações de uma amostragem significativa da população brasileira no período de 19 de maio de 2008 até 18 de maio de 2009. A partir disso, a partir da POF é possível mensurar os gastos, recebimentos e poupança da população através dos indivíduos e das famílias, bem como demonstrálos em relação às regiões do país, tipos de produtos e serviços, e como tais informações se apresentam durante o período de um ano, contemplando todas as épocas. A amostragem considerada na POF é em relação aos domicílios particulares permanentes. Em tais domicílios, identificase cada unidade básica da pesquisa, que corresponde a cada morador do domicílio que compartilham da mesma fonte de alimentação ou despesas com moradia. Os domínios para os quais se pode gerar resultados são: “Municípios das Capitais, situação urbana, e área urbana das Regiões Metropolitanas, estas últimas incluindo o Município da Capital”, conforme IBGE. Por fim, foram consideradas como Regiões Metropolitanas na POF 20082009: Belém, Fortaleza, Recife, Salvador, Belo 23 Horizonte, Rio de Janeiro, São Paulo, Curitiba e Porto Alegre. Adicionalmente, as amostras de domicílios foram selecionadas de forma aleatória e foram distribuídas da seguinte forma entre os estados brasileiros, totalizando em 55.970 domicílios entrevistados. Diniz (2010) em seu trabalho de análise do consumo de bens e serviços culturais no Brasil metropolitano, com base nos dados da POF 20022003, considerando a abordagem microeconômica do capital humano, em que o consumo de cultura é fortemente determinado pela exposição prévia dos indivíduos a tais bens e serviços, a pesquisa identificou algumas características individuais que influenciam esta exposição. A partir disso, concluiuse que o consumo cultural, o que inclui bens de informação, como filmes em salas de cinema, é determinado por variáveis socioeconômicas, educacionais e sócio demográficas do chefe do domicílio, além das variáveis que indicam a localidade e região dos domicílios. Por fim, os resultados do trabalho em questão indicam que o consumo cultural no Brasil é fortemente determinado pela renda e grau de educação do consumidor, concentrando se de forma mais expressiva no rendimento domiciliar. Além disso, apresentou variações de acordo com as regiões do país, o que levouse a associar tal consumo com as variações de oferta e/ou a distinções históricoculturais de cada região, bem como que algumas características particulares do chefe do domicílio e, ao mesmo tempo, dos grupos influenciam o consumo, estas podendo ser, a idade, gênero, raça/etnia e religião, afinal, podem representar influências dos grupos e indicação de pertencimento a estes, e experiências pessoais de cada indivíduo. A partir de tais informações, este trabalho considerou para construção dos classificadores, treinamento, testes e análise dos resultados os dados relacionados aos domicílios, bem como de cada indivíduo, referente às variáveis socioeconômicas (renda, sexo, idade, bem e papel na família, por exemplo), educacionais (grau de escolaridade, por exemplo), sócio demográficas do chefe do domicílio e variáveis que indicam a localidade e região dos domicílios (localização, estado, região metropolitana, zona rural/urbana, por exemplo), além das informações de consumo de bens e serviços relacionados a cultura. Para a construção, treinamento e testes dos classificadores, bem como para as atividades iniciais de limpeza, integração e transformação dos dados, será utilizado o software Waikato Environment for Knowledge Analysis (WEKA), que, conforme Abertnethy (2010), consiste em um software gratuito e de código aberto, utilizado par mineração de dados e transformação de conhecimento, que possibilita a implementação dos algoritmos escopo deste trabalho, Naive Bayes e SVM. Tratase de um produto desenvolvido pela Universidade de Waikato (Nova Zelândia), que utilizada a GNU General Public License (GPL) e foi 24 codificado em linguagem Java™. Adicionalmente, contém uma GUI para interação com arquivos de dados e geração de resultados visuais, como por exemplo, tabelas e gráficos. Dessa forma, todo o processo previsto no KDD será suportado pelo software em questão. Considerando que toda técnica de mineração de dados passa por um processo de treinamento, ou, também, denominado aprendizado, que consiste na apresentação dos dados já processados para o algoritmo aprender tais características e identificar os padrões úteis para descoberta do conhecimento, esta será a etapa inicial para a construção dos classificadores. Posteriormente, visto que os algoritmos objeto deste trabalho são baseados em Aprendizagem Supervisionada, que utiliza de um atributo chave para definição das classes dos dados, tais exemplos serão utilizados nesta fase de treinamento. Como a base da POF possui muitos registros, estes serão divididos entre as fases de treinamento, teste e validação do modelo, conforme detalhamento da subdivisão dos três conjuntos, segundo Camilo e Silva (2009): i. Conjunto de Treinamento (Training Set), consiste nos registros para desenvolvimento do modelo; ii. Conjunto de Testes (Test Set), consiste no conjunto de registros utilizados para teste do modelo; iii. Conjunto de Validação (Validation Set), consiste no conjunto de registros utilizados para validação do modelo; Dessa forma, a divisão da quantidade de registros da fase de treinamento e teste dos classificadores corresponderá a 90% da amostra de dados da base da POF. Após a modelagem e construção dos classificadores, o modelo será validado utilizando os 10% restantes dos dados da POF, não utilizados na fase de treinamento, para categorização dos indivíduos. Adicionalmente, tal divisão é efetuada para não se criar dependência do modelo para um conjunto de dados específico, mas sim para este ser submetido a outros dados e apresentar precisão satisfatória. A partir dos dados da POF, os seguintes classificadores macro serão previamente definidos para treinamento e comparação dos resultados: a. Indivíduos e famílias que consumiram filmes em salas de cinema no Brasil; e b. Indivíduos e famílias que não consumiram filmes em salas de cinema no Brasil. Por fim, a avaliação dos resultados obtidos e análise comparativa dos algoritmosde classificação, a partir dos seus respectivos conjuntos de estimativas, será efetuada considerando o desempenho dos algoritmos a partir das medidas de precisão, cobertura e acurácia, que segundo, são medidas interessantes na avaliação do desempenho de 25 classificações binárias, suas definições podem ser vistas nas Fórmulas 1, 2 e 3, abaixo, que representam a porcentagem dos dados pertencentes à classe e que foram recuperados (Predição), porcentagem dos dados que foram corretamente classificados (Cobertura) e a porcentagem dos dados que foram corretamente classificados em relação à medida de acurácia (Acurácia) (Boeachat, 2012). Predição = Pv/(Pv + Pf) (1 ) Cobertura = Pv/(Pv + Nf) (2 ) Acurácia = (Pv + Nv)/Pv + Pf + Nv + Nf (3 ) 26 4 Revisão Sistemática O objetivo da Revisão Sistemática foi identificar os métodos e técnicas de reconhecimento de padrões mais utilizados no estado na arte e observar os experimentos relacionados à aplicação dos algoritmos para identificação de determinantes de padrões de consumo, bem como os resultados e fatores considerados para as análises comparativas entre tais técnicas. 4.1.1 Questões de pesquisa Foram elaboradas uma questão principal de pesquisa e uma questão secundária para atender aos objetivos propostos desta Revisão Sistemática, sendo estas: Questão primária: Que tipo e quais técnicas de reconhecimento de padrões são aplicadas para identificação de determinantes de padrões de consumo? Para responder esta pergunta foram consideradas, além dos nomes dos algoritmos e suas respectivas técnicas, estas podendo ser Redes Neurais, Arvores de Decisão e ETC, foram consideradas também as seguintes classificações: Aprendizado Supervisionado, e suas subdivisões Classificação e Regressão, e Aprendizado nãosupervisionado e suas subdivisões Agrupamento e Regras de Associação. Questão secundária 1: Quais são as principais vantagens e desvantagens apresentadas na utilização de cada uma das técnicas estudadas? Para responder esta pergunta foram considerados todos os aspectos e critérios apresentados nas pesquisas referente aos pontos positivos e negativos da aplicação dos algoritmos de reconhecimento de padrões estudados. 4.2 Estratégia de busca para seleção de estudos A busca e seleção dos estudos ocorreu a partir considerando como fonte de dados a base biblioteca digital IEEExplore. A fonte em questão foi escolhida a partir de análise exploratória em relação ao tema geral de pesquisa, visto que é um repositório de busca de trabalhos muito reconhecido nesta área. Foi considerado somente trabalhos no idioma inglês, visto que é a principal língua para redação de trabalhos científicos conhecida e aceita 27 internacionalmente. A string de busca formada na etapa de condução da RS considerou as seguintes palavraschave: "variable selection”, "feature selection”, "consumption". As respectivas palavraschave foram definidas com base na análise exploratória efetuada a respeito do assunto e, também, com base nas questões de pesquisa, cujo objetivo é verificar de forma ampla as técnicas de aprendizagem de máquina aplicadas para reconhecimento de padrões de consumo, sem restrição a uma técnica ou modelo específico de mineração de dados. 4.2.1 Uma seção terciária Foram considerados nesta Revisão Sistemática os seguintes critérios de inclusão e exclusão, respectivamente, para a seleção dos estudos: Critérios de inclusão CI.1: Serão incluídos trabalhos publicados e disponíveis em bases de dados científicas ou em versões impressas. CI.2: Serão incluídos trabalhos que possuam abordagem de aplicação de métodos e técnicas de aprendizagem de máquina e reconhecimento de padrões. CI.3: Serão incluídos trabalhos que efetuam comparação das técnicas de aprendizagem de máquina e reconhecimento de padrões de bases de dados que envolvam bens de informação e que possuam aplicação para determinação de padrões de consumo. CI.4: Serão incluídos trabalhos que propõem novas técnicas de aprendizagem de máquina e reconhecimento de padrões e apresentem seus benefícios e vantagens em relação às técnicas já existentes. Critérios de exclusão CE.1: Serão excluídos trabalhos que apresentam avaliações sem apresentar o método e técnicas utilizadas. CE.2: Serão excluídos trabalhos que não apresentem estudos experimentais para validar a proposta de aplicação de determinada(s) técnica(s) de aprendizagem de máquina e reconhecimento de padrões. CE.3: Serão excluídos trabalhos que não possuam análise das vantagens e desvantagens referente à aplicação de um ou mais métodos e técnicas de aprendizagem de máquina e reconhecimento de padrões. 28 4.3 Outra seção secundária O processo de seleção de estudos primários contemplou a elaboração de string com as palavraschave definidas. A partir disso, a string foi submetida à máquina de busca do IEEE Xplore. Após a leitura do título, ano de publicação e resumo dos artigos, foram aplicados os critérios de inclusão e exclusão para préseleção do trabalho, posteriormente, todos os textos foram lidos na íntegra e selecionados, se confirmada a sua relevância pelo principal revisor (aluno). Nas situações de dúvida da relevância, o orientador foi consultado. Os trabalhos incluídos na revisão sistemática foram lidos na íntegra e foi elaborada uma resenha de todos eles, destacando os métodos e técnicas utilizadas em relação ao objetivo proposto. Foram extraídas as seguintes as informações dos trabalhos relacionados: Data de publicação; Local de publicação; Autores; Resumo/abstract; Métodos e Técnicas utilizadas. Adicionalmente, a partir dos objetivos propostos, foram definidas três categorias para classificação dos trabalhos, sendo estas: I. Comparação de técnicas de reconhecimento de padrões: artigos que apresentem, em sua essência, experimentos e estudos de caso de comparação de diferentes técnicas de reconhecimento de padrões, apresentando a análise das vantagens e desvantagens destas; II. Aplicação de técnicas de reconhecimentos de padrões: artigos que apresentem, em sua essência, somente experimentos e estudos de caso de aplicação de uma técnica de reconhecimento de padrões em um contexto específico. III. Novos modelos ou combinações de técnicas de reconhecimento de padrões: artigos que apresentem, em sua essência, experimentos e estudos de caso que propõem novas técnicas ou a combinação destas de forma inovadora. 4.4 Condução 29 Para seleção dos estudos foi efetuada a formação de string genérica de busca a partir das combinações das palavras chave definidas, sendo esta: ("variable selection" OR "feature selection") AND "consumption" A partir disso, seguindo as regras da fonte de busca da pesquisa, IEEE Xplore, foi gerada a seguinte string: (((("variable selection") OR "feature selection") AND "consumption")) Ao todo, a máquina de busca retornou 48 artigos que foram submetidos ao processo de seleção de estudos, aplicação dos critérios de inclusão e exclusão e, dessa forma, foram selecionados 20 artigos de estudo para compor a síntese da pesquisa. A Tabela 1 apresenta a relação de artigos submetidos ao processo de seleção e, também, em sua última coluna, o resultado das análises de tais artigos. A leitura completa de cada um dos trabalhos selecionados foi realizada e para análise de tais artigos, estes foram categorizados e, a partir das categorias apresentadas anteriormente, foi utilizado um formulário padrão para extração das informaçõesnecessárias, conforme informações apresentadas na subseção “Seleção final” do processo de seleção de estudos. A análise dos resultados obtidos, de acordo com as informações coletadas e as leituras efetuadas, encontrase descrita nas próximas seções. 4.5 Resultados Nesta seção, serão apresentados os resultados obtidos com a condução da revisão sistemática, conforme objetivos e questões de pesquisa descritos nas seções anteriores. A partir disso, o sumário dos trabalhos selecionados se encontra apresentado na Tabela 2. Algumas colunas como “Ano”, “Veículo de Publicação” e, principalmente, “Técnicas utilizadas” foram acrescentadas para auxiliar o mapeamento dos trabalhos. A primeira coluna da tabela apresenta o índice dos 20 artigos selecionados. A coluna “Título” contém o título do trabalho selecionado. As colunas intituladas como “Ano”, “País” e “Veículo de publicação” apresenta o ano, o país e o veículo em que o trabalho foi publicado, respectivamente. A coluna “Autores” contém a relação de todos os autores responsáveis pelo trabalho. A coluna “Categoria” apresenta a categoria de cada artigo, conforme especificação desta na seção anterior. E, por fim, a coluna intitulada como “Técnicas utilizadas”, apresenta as técnicas de 30 reconhecimento de padrões ou seleção de variáveis estudadas e utilizadas nos trabalhos selecionados. A pesquisa demonstrou que não há uma concentração expressiva na utilização de uma técnica de reconhecimento de padrões específica, as pesquisas apresentam a análise comparativa e estudos experimentais de técnicas diversas, conforme apresentado na Tabela 2. Porém, notase que a técnica como SVM (Support Vector Machine) foi apresentada com maior frequência nas pesquisas. Tabela 2 – Sumário dos trabalhos selecionados # Título Ano País Veículo de publicação Autores Categoria Técnicas utilizadas 1 A Naive Feature Selection Method and Its Application in Network Intrusion Detection 2010 China Computational Intelligence and Security (CIS), 2010 International Conference Tieming Chen; Xiaoming Pan; Yiguang Xuan; Jixia Ma; Jie Jiang Aplicação de técnicas de reconhecimentos de padrões C4.5, CFS 2 Mutivariable mutual information based feature selection for electricity price forecasting 2012 China Machine Learning and Cybernetics (ICMLC), 2012 International Conference ZhiWei Qiu Comparação de técnicas de reconhecimentos de padrões SVR MMISVR MIMISVR MISVR 3 Feature selection for support vector regression in the application of building energy prediction 2011 China Applied Machine Intelligence and Informatics (SAMI), 2011 IEEE 9th International Symposium Haixiang Zhao; Magoulès, F. Aplicação de técnicas de reconhecimentos de padrões SVR 4 A feature selection method for malware detection 2011 China Information and Automation (ICIA), 2011 IEEE International Conference Qingshan Jiang; Xinxing Zhao; Kai Huang Aplicação de técnicas de reconhecimentos de padrões CDCBF IG DSFS FCBF 5 Optimizing Traffic Classification 2008 China WebAge Information Management, 2008. Dai Lei; Yun Xiaochun; Xiao Jun Aplicação de técnicas de reconhecimentos ChiSquared – C4.5 NBK FCBF 31 Using Hybrid Feature Selection WAIM '08. The Ninth International Conference de padrões 6 Approximate nearest neighbor search using selforganizing map clustering for face recognition system 2014 Tailândia Computer Science and Engineering Conference (ICSEC), 2014 International Yodkhad, P.; Kawewong, A.; Patanukhom, K. Comparação de técnicas de reconhecimentos de padrões SOM Clustering combinado com PCA 2DPCA SOMFace kd Tree. 7 New method for nonintrusive data extraction and classification of residential appliances 2011 China Control and Decision Conference (CCDC), 2011 Chinese Zhenyu Wang; Guilin Zheng Novos modelos ou combinações de técnicas de reconhecimento de padrões NILM, DSM 8 Mining Recurring Concepts in a Dynamic Feature Space 2014 Cingapura Neural Networks and Learning Systems, IEEE Transactions on Gomes, J.B.; Gaber, M.M.; Sousa, P.A.C.; Menasalvas, E. Novos modelos ou combinações de técnicas de reconhecimento de padrões MReCDFS comparado com NB MW(100) OzBoostAdwi n DWM DDM Rec Rec+DFS(0.0 1) Rec+DFS(30 0) Rec+DFS(Ad ap) 9 Ensemble based optimal classification model for pre diagnosis of lung cancer 2013 Índia Computing, Communications and Networking Technologies (ICCCNT),2013 Fourth International Balachandran, K.; Anitha, R. Comparação de técnicas de reconhecimentos de padrões SMO MultiLayer Perceptron (MLP) IBK Logistic 32 Conference on Random Forest (RF) Multiclass Classifier LogitBoost e RandomTree 10 GATSC4.5: An Algorithm for Optimizing Features in Flow Classification 2008 China Consumer Communications and Networking Conference, 2008. CCNC 2008 You Chen; Lei Dai; XueQi Cheng Aplicação de técnicas de reconhecimentos de padrões GATS C4.5 11 Classification Related Manifold Dimension Estimation with Restricted Boltzmann Machine 2013 China Image and Graphics (ICIG), 2013 Seventh International Conference on Kezhen Teng; Jinqiao Wang Novos modelos ou combinações de técnicas de reconhecimento de padrões RBM, SVM 12 Analysis of Features Selection and Machine Learning Classifier in Android Malware Detection 2014 Malásia Information Science and Applications (ICISA), 2014 International Conference on Mas'ud, M.Z.; Sahib, S.; Abdollah, M.F.; Selamat, S.R.; Yusof, R. Comparação de técnicas de reconhecimentos de padrões Naïve Bayes (NB) Knearest Neighbour (KNN) Decision Tree (J48) Multi Layer Perceptron (MLP) Random Forest (RF) 13 Relation of home energy consumption and static properties of consumers 2011 China Awareness Science and Technology (iCAST), 2011 3rd International Conference on Tamano, K.; Tsuji, H. Novos modelos ou combinações de técnicas de reconhecimento de padrões Naïve Bayes (NB) 14 The research of the resident user classification 2012 China Fuzzy Systems and Knowledge Discovery (FSKD), Suxiang Zhang Novos modelos ou combinações de técnicas de ME (maximum entropy) 33 based on the maximum entropy in the smart grid 2012 9th International Conference on reconhecimento de padrões 15 EnergyEfficient Signal Classification in Ad hoc Wireless Sensor Networks 2008 Itália Instrumentation and Measurement, IEEE Transactions on Pianegiani, F.; Mingqing Hu; Boni, A.; Petri, D. Novos modelos ou combinações de técnicas de reconhecimento de padrões νSVM 16 Dayahead price forecasting of electricity markets by combination of mutual information technique and neural network 2008 EUA Power and Energy Society General Meeting Conversion and Delivery of Electrical Energy in the 21st Century, 2008 IEEE Amjady, N.; Daraeepour, A. Novos modelos ou combinações de técnicas de reconhecimento de padrões AC+ARIMA AC+NN PCA+NN MI+NN 17 A smart phone based pocket fall accident detection system 2014 China Bioelectronics and Bioinformatics (ISBB), 2014 IEEE International Symposium on LihJen Kau; ChihSheng Chen Aplicação de técnicas de reconhecimentos de padrões SVM 18 What is the importance of selecting features for non technical losses identification? 2011 Brasil Circuits and Systems (ISCAS), 2011 IEEE International Symposium on Ramos, C.C.O.; Papa, J.P.; Souza,A.N.; Chiachia, G.; Falcao, A.X. Comparação de técnicas de reconhecimentos de padrões OPF OPFPSO SVMRBF SVM noKernel ANNMLP SOM kNN 19 Improving reinforcement learning algorithms by the use of data mining techniques for feature and 2010 Brasil Systems Man and Cybernetics (SMC), 2010 IEEE International Conference on de L Vieira, D.C.; Adeodato, P.J.L.; Gonçalves, P.M. Novos modelos ou combinações de técnicas de reconhecimento de padrões LVF 34 action selection 20 Lightweight IDS Based on Features Selection and IDS Classification Scheme 2009 Canadá Computational Science and Engineering, 2009. CSE '09. International Conference on Zaman, S.; Karray, F. Novos modelos ou combinações de técnicas de reconhecimento de padrões SVM IDS Adicionalmente, a pesquisa realizada mostrou, também, que os estudos relacionados a reconhecimento de padrões e técnicas de mineração de dados estão concentrados no continente asiático, com destaque a China, representa 75% dos artigos selecionados. Adicionalmente, 20% na América, sendo 10% na América do Sul (Brasil) e 10% na América do Norte, e 5% na Europa (Itália). Os trabalhos relacionados na Tabela 2 são sucintamente apresentados nas próximas subseções, organizados de acordo com as classificações atribuídas aos grupos de artigos: Comparação de técnicas de reconhecimentos de padrões Os artigos pertencentes ao grupo em questão se referem ao estudo e análise comparativa de diferentes técnicas de reconhecimento de padrões e seleção de variáveis em cenários distintos. Mas'ud, Sahib, Abdollah, Selamat e Yusof (2014) apresentam experimentos para comparação de métodos de aprendizagem de máquina para classificação de variáveis no contexto de detecção de malwares para Android, utilizando as seguintes técnicas Naïve Bayes (NB), Knearest, Neighbour (KNN), Decision Tree (J48), MultiLayer Perceptron (MLP) e Random Forest (RF) em máquinas de aprendizagem de classificadores distintas. A partir disso, o resultado do estudo indicou que foi alcançado o melhor desempenho global a partir do método MLP utilizando o conjunto de seleção derivado do método de seleção de atributos. Já ZhiWei (2012) apresenta efetua estudos experimentais comparando a técnica SVR e suas variações (MMISVR, MIMISVR, MISVR) no contexto de identificação de padrões de consumo de eletricidade para projeção dos seus respectivos preços. Os experimentos efetuados demonstram que tal método juntamente com a proposta de “informação mútua 35 multivariada” (MMISVR) para seleção deste tipo de variável atinge previsão mais exata neste contexto do que outros métodos de seleção conhecidos. Yodkhad, Kawewong e Patanukhom (2014) propõe a aplicação da rede SOM para busca de agrupamentos de bases de dados, melhorando a eficiência do sistema de reconhecimento facial do “vizinho” mais próximo. Neste contexto, o desempenho do método em questão foi aplicado em três métodos de extração de características, sendo eles PCA (Análise de componentes principais), 2DPCA (Análise bidimensional de componentes principais) e SOMFace. Por fim, os experimentos em 1560 imagens faciais de 156 pessoas demonstraram que o método proposto possui melhor desempenho que a árvore kd e busca por força bruta. Em contrapartida, a partir de estudos experimentais realizados por Ramos, Papa, Souza, Chiachia e Falcao (2011), no contexto de perdas não técnicas de identificação automática, a técnica SOM não apresentou melhor desempenho, visto que foi efetuada a comparação da técnica OPF com outras técnicas de reconhecimento de padrões relacionadas a perdas não técnicas de identificação automática, sendo estas a própria SOM e outras técnicas como SVMRBF, SVMnoKernel, ANNMLP e kNN, e, posteriormente, o método tradicional OPF foi comparado com o OPFPSO a fim de selecionar os atributos mais representativos e também classificálos. A partir disso, o resultado dos experimentos demonstraram que, no primeiro, os classificadores mais precisos foram OPF e kNN e já no segundo o modelo OPFPSO apresentou melhores resultados em relação ao OPF. No contexto de utilização da mineração de dados para definição de classificadores de predição de câncer de pulmão com base nos sintomas e fatores de risco da doença, Balachandran e Anitha (2013) observaram através de experimentos, que a abordagem do treinamento supervisionado é superior à abordagem de validação cruzada e que os algoritmos de classificação como SMO, MultiLayer Perceptron, IBK, Logistic, Random Forest ,Multiclass Classifier, LogitBoost e RandomTree são mais adequados no contexto de treinamento supervisionado para agrupamento de dados. Aplicação de técnicas de reconhecimentos de padrões Os artigos pertencentes ao grupo em questão se referem à aplicação de técnicas de reconhecimento de padrões e seleção de variáveis em cenários pouco explorados até o momento. 36 Haixiang e Magoulès (2011) apresentam a aplicação do modelo SVR no contexto de consumo de energia, a partir de experimentos em dois núcleos (Kernels) distintos, porém, ambos demostram que os métodos propostos possibilitam a seleção ótima de um subconjunto de variáveis em um tempo computacional reduzido. Dai, Yun e Xiao (2008) Jun apresentam um método de seleção de característica híbrida para classificação de um fluxo no contexto de classificação das aplicações em rede, utilizando o algoritmo ChiSquared – C4.5, os experimentos efetuados indicam que a abordagem proposta pode reduzir significativamente o desempenho computacional sem impactar na precisão da classificação. Adicionalmente, tais experimentos indicam também esta abordagem funciona melhor do que o método NBK FCBF. Reforçando o estudo acima, Chen; Dai; Cheng (2008) propõem a seleção de características dos dados através do algoritmo baseado em árvores de seleção, GATS C4.5, sendo o Algoritmo Genético de Busca Tabu (GATS) como estratégia de busca e o algoritmo C4.5 como função de avaliação, para a construção de um classificador de fluxo “leve”. E tais experimentos também demonstraram que a técnica em questão possui velocidade rápida e alta precisão, dessa forma, o classificador utilizando esta combinação possui uma melhora significativa no desempenho computacional sem impacto negativo na previsão da classificação, além disso, indica também que o desempenho é superior a classificadores como NBKFCBF em todas as classes. Já Tieming, Xiaoming, Yiguang, Jixia e Jie (2010), propõem um recurso de busca eficiente para seleção de características relevantes e não redundantes no contexto de intrusão de rede, utilizando os algoritmos C4.5 e CFS, e tais experimentos também indicam a seleção ótima de recursos com um bom desempenho computacional a partir de tais técnicas. Em paralelo, Qingshan, Xinxing e Huang (2011) propõe uma métrica de seleção de características, método CDCBF (Class Driven Correlation based Feature Selection), no contexto de detecção de malwares, que verifica os subgrupos que possuem classificação e calcula a associação entre as suas características, apresentando, também, resultados positivos em relação à precisão da classificação e custo computacional de processamento. Por fim, LihJen; ChihSheng (2014) propõem um smartphone com um sistema inteligente de detecção de acidentes utilizando a técnica SVM que apresentou resultados vantajosos em relação carga computacional e consumo de energia,visto que foram representativamente reduzidos, além do bom desempenho e aumento na precisão/especificidade dos resultados obtidos. 37 Novos modelos ou combinações de técnicas de reconhecimento de padrões Por fim, os artigos pertencentes ao grupo em questão se referem a novas propostas de técnicas de reconhecimento de padrões e seleção de variáveis, se distinguindo no contexto em que foram aplicadas e nas combinações de técnicas utilizadas em tais experimentos. Wang e Zheng (2011) utilizaram variações das técnicas NILM, DSM para da classificação e identificação de dados de forma não intrusiva nos aparelhos de monitoramento residencial, utilizando o tempo de reação humana como unidade escala de tempo (frequência de amostragem). Já Gomes, Gaber, Sousa e MenaSalvas (2014), combinaram a técnica MReCDFS com NB, MW(100), OzBoostAdwin, DWM, DDM, Rec, Rec+DFS(0.01), Rec+DFS(300), Rec+DFS(Adap) para elaboração de um sistema de aprendizado fluxo de dados em um espaço que possui característica dinâmica, cujos resultados apresentaram que a seleção de recurso minimiza o custo associado para aprendizagem de máquina neste cenário. Tamano, Tsuji (2011), utilizou uma variação da técnica de Naïve Bayes (NB) para desenvolvimento de um método rápido de notificação de consumo de energia e suas tendências de consumo, cujos experimentos demonstraram que a precisão obtida não é muito elevada, porém, têmse diversas propriedades estáticas sugestivas. No ano seguinte, em 2012, Suxiang apresentou a variação da técnica ME (maximum entropy) para, também identificar padrões de consumo de energia, que apresentou vantagens em relação à técnica original em relação à precisão dos resultados obtidos. Teng e Wang (2013) propõem um método para estimar a classificação relacionada à estratégia de estimação da dimensão utilizando RBM (Restricted Boltzmann Machine) e classificadores SVM. Adicionalmente, uma nova estratégia de inicialização é proposta para acelerar o processo de treinamento da máquina (RBM) e tais métodos foram verificados em conjuntos de dados reais e sintéticos, e, com isso, temse como resultado que o método de classificação, em relação à estratégia de estimativa de dimensão a partir da utilização da RBM, é efetivo em relação à precisão e baixo tempo de consumo e utilização de memória. Em 2008, Pianegiani, Mingqing, Boni e Petri, propuseram uma variação da técnica ν SVM para utilização de sensores sem fio de baixa potência para a classificação de sinais de rede, cujos resultados os experimentos alcançaram baixo consumo de energia e utilização eficiente dos recursos de hardware e mostraram que a precisão da execução proposta é comparável com que as técnicas já conhecidas na literatura. No mesmo ano, Amjady e Daraeepour, propuseram a combinação das técnicas AC+ARIMA, AC+NN, PCA+NN, MI+NN, para previsão do preço em relação ao mercado de eletricidade e esta última 38 apresentou melhores resultados em relação ao custo computacional e precisão. No ano seguinte, Vieira, Adeodato e Gonçalves, propuseram uma nova aplicação da técnica LVF para um problema específico do RoboCup futebol, o “drible”, cujos resultados dos experimentos apresentaram a redução da quantidade de variáveis no ambiente e da quantidade de ações, o que resultou numa redução no consumo de memória e um aumento no desempenho, conforme a distribuição de frequência relativa de sucesso do agente. Por fim, Zaman e Karray, propuseram uma validação da técnica IDS, denominada IDS Leve, para construção de um sistema de Detecção de intrusão e, com isso, comparada com a técnica SVM, a IDS leve possui desempenho satisfatório, em relação à precisão de classificação e redução do tempo de treinamento, para ser utilizado como elemento permanente para segurança da rede e infraestrutura. 4.6 Discussão e Resultados A partir dos estudos efetuados, notouse que todos os trabalhos, mesmo realizando análises comparativas de técnicas de reconhecimento de padrões, propondo novas variações ou combinações destas ou avaliando os resultados dos experimentos a partir das aplicações de tais técnicas, consideraram, unanimemente, as seguintes métricas para tais análises comparativas: precisão dos classificadores e desempenho computacional. Adicionalmente, não foram identificadas pesquisas e experimentos que aplicassem tais técnicas no contexto de bens de informação. E, apenas um dos artigos estudados, aplicou tais técnicas para reconhecimento de padrões de consumo, porém, voltado para consumo de energia elétrica. Não foram identificados trabalhos que efetuaram experimentos para seleção de variáveis e apuração de determinantes de consumo ou preferência humana. De forma geral, os estudos efetuados em relação às técnicas de reconhecimento de padrões não estão concentrados em uma área específica, visto que os artigos estudados foram aplicados em áreas e contextos distintos, sendo estes, saúde, segurança domiciliar, detecção de malwares, segurança de rede, detecção de movimentos, entre outros, o que reforça a aplicabilidade da mineração de dados nos mais variados segmentos e situaçõesproblema. Adicionalmente, a partir dos estudos efetuados, é possível afirmar que devido à abrangência das áreas de aplicação identificadas nos artigos estudados, notouse, também, uma variedade nas técnicas de reconhecimento de padrões utilizadas, sendo que algumas delas apresentavam melhor desempenho em determinados contextos e em outros possuíam desempenho inferior. Com isso, não foi identificada uma concentração expressiva na 39 utilização de determinada técnica de reconhecimento de padrões ou seleção de variáveis, o que se pode inferir que a escolha e o desempenho destas em relação à precisão das classificações de dados e custo computacional dependem diretamente do contexto em que são aplicadas, devendose levar em consideração alguns aspectos como seu objetivo, recursos computacionais disponíveis e bases de dados a serem utilizadas. O interesse na área de reconhecimento de padrões tem crescido muito nos últimos anos, visto que se trata de uma tarefa de classificação ou categorização de um elevado volume de dados em um contexto dinâmico em que a precisão dos resultados e o desempenho computacional são aspectos fundamentais para apoio a tomada de decisão e resolução de problemas complexos. Dessa forma, diante do cenário em questão, este relatório apresentou o processo de condução de uma revisão sistemática cujo objetivo principal foi identificar métodos e técnicas de reconhecimento de padrões mais utilizados pelo estado na arte e os experimentos relacionados à aplicação de técnicas de reconhecimento de padrões para identificação de determinantes de padrões de consumo de bens de informação. A partir da revisão efetuada, podese afirmar que a aplicação das técnicas de reconhecimento de padrões no contexto de definição de determinantes de padrões de consumo de bens de informação não é um tópico de pesquisa maduro e desenvolvido, visto que não foi abordado em nenhum dos trabalhos estudados. Adicionalmente, concluise também que tais técnicas podem ser aplicadas nos mais diversos contextos e áreas e que a escolha e o desempenho das técnicas de reconhecimento de padrões e seleção de variáveis, em relação à precisão das classificações de dados e custo computacional, dependem diretamente destes contextos. 5 Cronograma Este trabalho será composto pelas seguintes etapas e executado