Nathalia-Marislei

Cristina Castro
20/02/2022
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 44 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 44 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 44 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Prévia do material em texto
NATHALIA NIEUWENHOFF
Análise comparativa de técnicas de classificação de 
dados aplicadas para identificação dos 
determinantes de decisão do consumo de filmes em 
salas de cinema no Brasil
São Paulo
2016
NATHALIA NIEUWENHOFF
Análise comparativa de técnicas de classificação de dados 
aplicadas para identificação dos determinantes de decisão do 
consumo de filmes em salas de cinema no Brasil.
Qualificação  apresentada  à  Escola  de  Artes, 
Ciências  e  Humanidades  da  Universidade  de 
São  Paulo  para  obtenção  do  título  de Mestre 
em Ciências pelo Programa de Pósgraduação 
em Sistemas de Informação. 
Área  de  Concentração:  Metodologia  e 
Técnicas da Computação
Orientador: Profa. Dra. Marislei Nishijima
São Paulo
2016
Exame  de  Qualificação  de  autoria  de  Nathalia  Nieuwenhoff,  sob  o  título  "Análise 
comparativa  de  técnicas  de  classificação  de  dados  aplicadas  para  identificação  dos 
determinantes  de  decisão  do  consumo  de  filmes  em  salas  de  cinema  no  Brasil", 
apresentada à Escola de Artes, Ciências e Humanidades da Universidade de São Paulo, para 
obtenção do  título de Mestre em Ciências pelo Programa de Pósgraduação em Sistemas de 
Informação, na área de concentração Metodologia e Técnicas da Computação, aprovada em 
_____ de _____________________ de ________ pela comissão  julgadora constituída pelos 
doutores:
Prof. Dr. __________________________________________
Presidente
Instituição: _____________________________________
Prof. Dr. __________________________________________
Instituição: _____________________________________
Prof. Dr. __________________________________________
Instituição: _____________________________________
Prof. Dr. __________________________________________
Instituição: _____________________________________
Resumo
As  tarefas de classificação ou categorização de dados, conhecida  também como  técnicas de 
reconhecimento  de  padrões  e  seleção  de  variáveis  estão  sendo  cada  vez mais  utilizadas  no 
contexto de extração de informações ou padrões em bases de dados volumosas. A partir disso, 
a  aplicação de  técnicas  de  reconhecimento  de  padrões  para  identificação dos  determinantes 
dos padrões de consumo de um bem de informação é uma tarefa complexa e pouco explorada 
no mercado brasileiro. Este trabalho apresenta um análise comparativa da aplicação de duas 
técnicas de aprendizagem de máquina para classificação de dados, baseadas em aprendizado 
supervisionado,  sendo estas Naive Bayes e Support Vector Machine, para  identificação dos 
determinantes de padrões de consumo de um bem de informação, filmes em salas de cinema 
no Brasil, a partir dos dados obtidos na Pesquisa de Orçamento Familiar  (POF) 20082009, 
pelo Instituto Brasileiro de Geografia e Estatística (IBGE). 
Palavraschave:  Algoritmos  de  classificação.  Bens  de  Informação.  Seleção  de  recursos. 
Seleção de variáveis. Consumo.
Abstract
The  task  classification  or  categorization  data,  also  known  as  pattern  recognition  techniques 
and variables selection are being increasingly used in the context of extracting information or 
patterns  in  large  databases.  From  this,  the  application  of  pattern  recognition  techniques  to 
identify the determinants of consumption patterns of a good information is complex and little 
explored  in  Brazil.  This  paper  presents  a  comparative  analysis  of  the  application  of  two 
machine learning techniques for data classification based on supervised learning, Naive Bayes 
and Support Vector Machine (SVM), to identify the determinants of consumption patterns of 
a good information, movies in Brazilians cinemas, based on data obtained from the Pesquisa 
de  Orçamento  Familiar  (  POF  )  20082009  by  the  Instituto  Brasileiro  de  Geografia  e 
Estatística (IBGE).
Keywords:  Classification  Algorithm.  Good  information.  Feature  Selection.  Variable 
Selection. Consumption.
Sumário
1 Introdução 6
1.1 Justificativa e Motivação 7
1.1.1 Objetivos 12
1.1.2 Estrutura do documento 13
2 Fundamentação teórica 14
2.1 Descoberta do conhecimento 14
2.2 Classificação 16
2.3 Regressão 17
2.4 Agrupamento 17
2.5 Associação 17
2.6 Descrição 18
2.7 Aprendizado de Máquina 18
3 Metodologia de Pesquisa 20
3.1 Revisão Bibliográfica 20
3.2 Revisão Sistemática 20
3.2.1 Validação dos algoritmos de classificação 20
4 Revisão Sistemática 25
4.1.1 Questões de pesquisa 25
4.2 Estratégia de busca para seleção de estudos 25
4.2.1 Uma seção terciária 26
4.3 Outra seção secundária 27
4.4 Condução 28
4.5 Resultados 28
4.6 Discussão e Resultados 37
5 Cronograma 39
Referências 39
7
1 Introdução
A  evolução  tecnológica  constante  resultou  na  mudança  da  lógica  de  consumo  de 
alguns  bens,  devido  à  facilidade  de  acesso  à  informação,  as  pessoas  não  necessariamente 
precisam  se  deslocar  ou  pagar  diretamente  para  terem  acesso  a  determinados  bens  de 
informação, como os filmes nas salas de cinema, visto que estes se encontram disponíveis na 
internet  ou,  também,  através  dos  recursos  da  pirataria,  por  exemplo.  Neste  contexto,  o 
consumo e  seus meios utilizados  indicam não somente as preferências dos  indivíduos, mas, 
também,  exprimem  o  que  estes  consideram  socialmente  prioritário  e  essencial.  Ao mesmo 
tempo, o consumo de cultura, a partir dos bens de informação, é capaz de exprimir a situação 
de capital econômico, social e cultural das pessoas, de suas respectivas famílias e dos grupos 
nos quais estão inseridos de forma relacionada.
Os  padrões  de  decisão  do  consumo  são  parte  de  uma  composição  de  variáveis 
culturais,  econômicas  e  sociais  segregadas  e  agrupadas  ao  mesmo  tempo,  dessa  forma, 
identificar  tais  padrões  se  trata  de  uma  tarefa  desafiadora  devido  à  complexidade  de  tais 
fatores e a heterogeneidade envolvida. A partir destes aspectos, a necessidade de  identificar 
padrões  precisos  e  úteis  nos  dados  tem  exigido  um  aprofundamento  contínuo  do  estudo  de 
técnicas computacionais que otimizem e automatizem tais atividades e, dentro do contexto de 
Knowledge Discovery in Databases (KDD), a Mineração de dados, ou Data mining, tratase 
de  uma  etapa  deste  processo,  que  consiste  na  aplicação  das  técnicas  computacionais  em  si 
para geração de conhecimento.
Dentre as técnicas de mineração de dados atuais, o processo classificação é capaz de 
identificar  um conjunto de modelos  que  segregam classes  ou grupos  e,  a  partir  do modelo, 
predizer a classe que os objetos ainda não classificados pertencem. A partir disso, a escolha da 
abordagem e da técnica de reconhecimento de padrão ou até mesmo uma combinação de uma 
ou mais técnicas está diretamente relacionada com o problema e ao contexto em que este se 
aplica.
Dessa forma, este trabalho tem como objetivo aplicar a mineração de dados utilizando 
dois  algoritmos  de  aprendizagem  de  máquina  classificadores,  sendo  estes  Naive  Bayes  e 
Support  Vetor Machine  (SVM),  para  identificação  de  padrões  de  consumo  de  um  bem  de 
informação,  filmes  nas  salas  de  cinema  pelos  brasileiros,  bem  como  efetuar  a  análise 
comparativa  dos  resultados  obtidos  a  partir  destes  algoritmos,  considerando  medidas 
relacionadas à precisão das técnicas aplicadas, bem como seus desempenhos computacionais. 
Os  algoritmos  serão  aplicados  na  base  dos  dados  coletados  na  Pesquisa  de  Orçamento 
8
Familiar  (POF),  realizada  em  um  período  de  12  meses  entre  os  anos  2008  e  2009  e 
disponibilizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE).
1.1 Justificativa e Motivação
Segundo  Canclini  (1999),  o  consumo  consiste  no  “conjunto  de  processos 
socioculturais  nos  quais  se  realizam a  apropriação  e  o  uso  dos  produtos”. A partir  disso,  o 
consumo possui a capacidade de agrupar as pessoas, bem como distinguilas e classificálas,afinal, através dele é possível se dizer sobre quem consome, identificar características sociais, 
culturais e econômicas dos indivíduos e como elas estão relacionadas. O Ministério Brasileiro 
da  Cultura  (2007)  reforça  esta  ideia  afirmando  que  “o  consumo  cria  ordem,  classifica  as 
pessoas e as associa aos bens; enfim, o consumo ordena informações e organiza significados 
sobre as estruturas sociais”.
Neste  cenário,  o  consumo  está  diretamente  relacionado  à  cidadania  e  ao  direito,  em 
suas variadas esferas. No aspecto social, está conexo ao direito de acesso aos bens e serviços. 
Dessa forma, o consumo cultural diz respeito sobre a organização de uma sociedade e é um 
meio de se estabelecer condições para o exercício da cidadania, formação de indivíduos, bem 
como a participação destes no contexto político e social. 
A  partir  disso,  os  padrões  de  decisão  do  consumo  são  parte  de  uma  composição  de 
variáveis  culturais,  econômicas  e  sociais  e  identificar  tais  padrões,  tratase  de  uma  tarefa 
desafiadora devido às múltiplas variáveis envolvidas e à necessidade de se mapear como tais 
variáveis se relacionam.
Adicionalmente, o consumo de cultura aplicada aos bens de informação, que segundo 
Shapiro  e Varian  (1999),  bem de  informação ou good  information  é  um bem que pode  ser 
digitalizado  ou  codificado  como  um  fluxo  de  bits,  que  independente  da  fonte  particular  de 
valor,  as  pessoas  estão dispostas  a  pagar  para  obtêlo  ou  consumilo,  a  partir  disso,  filmes, 
músicas, páginas na web são alguns dos exemplos de bens de informação, além dos aspectos 
gerais do consumo, possuem como desafio direto a evolução tecnológica constante. Afinal, os 
meios  de  reprodução  de  tais  bens  de  informação  são  amplamente  variados  e  vem  sofrendo 
uma mudança significativa na lógica de seu consumo.
Diniz  (2009)  afirma  que  o  consumo  cultural  é  afetado  diretamente  pelas  variáveis 
socioeconômicas,  educacionais  e  sócio  demográficas  de  quem  consome  e,  também,  pelas 
variáveis geográficas que indicam não somente aspectos culturais, mas também variações de 
oferta  dos  produtos  em  cada  região.  Adicionalmente,  as  experiências  sociais  que  os 
9
consumidores  estão  sujeitos  influenciam  suas  preferências,  dessa  forma,  estas  são  afetadas 
diretamente  pelo  capital  pessoal,  ou  seja,  experiências  pessoais  e  individuais  dos 
consumidores, bem como pelo capital social, experiências e influências proporcionadas pelo 
meio social que os consumidores estão inseridos. Dessa forma, o estudo dos determinantes de 
consumo de cultura requer o mapeamento das restrições e influências que o consumidor e os 
grupos nos quais este está  inserido sofrem, resultando, assim, no entendimento aprofundado 
do público alvo de consumo. 
Reforçando esta  ideia, Throsby (1999) afirma que os produtos culturais, o que inclui 
os bens de  informação, possuem valores de uso que são compostos pelos produtos culturais 
materializados  e  os  que  possuem valor  simbólico,  dessa  forma,  notase  que  a  atribuição  de 
valor  a  eles  não  é  uma  tarefa  trivial,  afinal,  é  preciso  conhecer  mais  detalhadamente 
características especiais destes bens, bem como as de quem os consome. 
Aplicando  este  contexto  ao  cenário  brasileiro,  o  Brasil  além  de  ser  um  país 
conceitualmente dividido em cinco grandes regiões, é um país multicultural, o que torna ainda 
mais  complexa  a  tarefa  de  mapeamento  e  identificação  dos  padrões  de  consumo  da  sua 
população, afinal,  além de  sua cultura estar  sujeita a um conjunto de  incentivos  financeiros 
com  recursos  públicos  disputados  que  são  aplicados,  muitas  vezes,  sem  nenhum  grau  de 
conhecimento do padrão de consumo, conforme afirmado por Hofstede (2010), as diferenças 
culturais entre as regiões do país são significativas, tornando ainda mais complexa a tarefa de 
definição de padrão de consumo do brasileiro de forma geral. 
Neste  contexto,  visto  que  o  consumo  de  cultura  aborda  a  noção  de  cidadania 
impactada pelo acesso, classificar os indivíduos e identificar padrões de consumo de cultura, 
através dos bens de informação, tornase cada vez mais necessário para os recursos públicos 
serem capazes de estabelecer políticas públicas voltadas ao setor eficazes e, ao mesmo tempo, 
reduzir o  consumo  ilegal dos bens de  informação,  combatendo  iniciativas  como a pirataria, 
por exemplo.
Adicionalmente, de acordo com Silva  (2008),  a  administração pública do Brasil não 
possui dados consistes e precisos  sobre as práticas culturais dos brasileiros e como estas  se 
refletem nas diversas regiões do país, bem como sobre os hábitos de consumo cultural da sua 
população, ocasionando, assim, a elaboração de políticas públicas culturais  ineficazes e que 
não  atendem  às  necessidades  para  um  consumo  cultural  efetivo  e  acessível  à  população 
brasileira.  Em  paralelo,  é  de  alto  interesse  das  empresas  responsáveis  pela  produção  e 
reprodução de tais bens de informação a identificação de padrões de consumo no contexto de 
auxiliar as estratégias de venda e divulgação de tais bens para um público alvo mais preciso, 
10
bem  como  identificar  e  prever  cenários  de  evolução  tecnológica,  possíveis  concorrências  e 
meios  para  veiculação  de  tais  bens maximizando  lucros  e  aumentando  a  satisfação  de  seus 
clientes.
Além do contexto cultural e social, a relevância do consumo de cultura em relação ao 
bem de informação, filmes em sala de cinemas brasileiros, é reforçada no aspecto econômico, 
afinal,  de  acordo  com  o  Ministério  Brasileiro  da  Cultura  (2007),  o  consumo  cultural  da 
população é parte não somente de investimentos públicos e privados, bem como do Produto 
Interno  Bruto  (PIB)  dos  indivíduos.  Segundo  o  estudo  de  Valor  Adicional  do  setor  de 
audiovisual  efetuado  pela  Agência  Nacional  de  Cinema  (ANCINE),  agência  reguladora  e 
fiscalizadora do mercado brasileiro de cinema e do audiovisual, as atividades econômicas do 
setor de audiovisual, que “compreende a indústria cinematográfica e videofonográfica do país,  
isto  é:  os  agentes  de  produção,  distribuição  e  exibição  dos  segmentos  de  cinema (salas 
de  exibição),  TV  paga  (comunicação  eletrônica  de  massa  por  assinatura),  TV  aberta 
(radiodifusão  de  sons  e  imagens),  vídeo  doméstico,  vídeo  por  demanda  e  mídias  móveis, 
apresentaram uma renda de R$22,9 bilhões na economia brasileira referente ao valor adicional 
do setor, bem como vem apresentado evolução do tamanho do setor entre os anos de 2007 a 
2013.  Segundo  o  Instituto  Brasileiro  de  Geografia  e  Estatística  (IBGE),  Valor  Adicionado 
“referese ao valor que a atividade acrescenta aos bens e serviços consumidos no seu processo 
produtivo”.
Adicionalmente, segundo o Informe Anual de Acompanhamento de Mercado emitido 
pela ANCINE, o ano de 2009, período dos dados a serem utilizados neste trabalho, registrou 
um público total de 112.683.383 espectadores, que corresponde a uma renda no valor de R$ 
969.783.735,77.  Estes  números  representam  o  maior  público  dos  últimos  cinco  anos,  bem 
como um crescimento de 25,26% e 32,93%, no público e renda, respectivamente, referente ao 
ano anterior, 2008.
Abaixo, o gráfico 1 demonstra  a  evolução contínua do  setor, medido  segundo o  seu 
valor  adicionado  no  período  de  2007  a  2013.  Já  o  gráfico  2  apresenta  a  evolução  do  valor 
adicionado pelo setor audiovisual em termos reais, demonstrando uma expansão de 8,8% ao 
ano no período, que é expressivamente superior à média de todos os setores da economia no 
período observado (vide comparação apresentada no gráfico 2). 
Gráfico 1 – Valor adicionado pelo setor audiovisual (R$ bilhões correntes)
11
Fonte: IBGE, 20072013.
Gráfico2  –  Valor  adicionado  pelo  setor  audiovisual  e  Valor  adicionado  total: 
variações anuais reais (%)
Fonte: IBGE, 20072013.
A  partir  disso,  o  maior  conhecimento  permite  que  se  avalie  mais  precisamente  os 
recursos  envolvidos  para  garantir  sua  otimização  neste  setor,  que  é  relevante  para  o  país. 
Porém, o cenário de consumo cultural, conforme detalhado anteriormente, possui um conjunto 
complexo de variáveis, bem como requer a manipulação de bases de dados volumosas, devido 
não  só  ao  tamanho  da  população  brasileira,  mas  também  aos  fatores  sociais,  culturais  e 
econômicos que estão relacionados, a maioria dos estudos sobre tais padrões de consumo que 
envolvem os bens de informação se baseia em análises qualitativas sem o uso sistemático de 
informações quantitativas, bem como a combinação destas. 
Em paralelo, devido à quantidade e complexidade de tais dados, a exploração manual 
destes para geração de conhecimento se torna inviável, necessitando, assim, da aplicação de 
técnicas automatizadas para tal fim. Com o objetivo de reduzir a complexidade do problema 
relacionado à manipulação e a  identificação do relacionamento entre  tais dados para auxílio 
nas tomadas de decisões de forma que se atinja uma precisão ótima nos padrões identificados 
12
e, em paralelo, não comprometa o desempenho computacional das aplicações, visto que, nos 
dias  atuais,  estas  estão  cada  vez  mais  exigentes,  tais  técnicas  estão  sendo  cada  vez  mais 
estudadas, aplicadas e desenvolvidas.
Dessa  forma,  o  interesse  na  área  de  Reconhecimento  de  padrões,  que  segundo 
Schalkoff  (1991),  tratase do estudo de descrição e classificação de medições,  tem crescido 
muito nos últimos anos e está em constante desenvolvimento, visto que se trata de uma tarefa 
de classificação ou categorização de dados, cujo objetivo é discriminar amostras de objetos e 
classificar corretamente as amostras futuras. 
Neste contexto, tais fatores conduziram a exploração e desenvolvimento da técnica de 
extração de conhecimento em banco de dados volumosos, nãotriviais e dinâmicos,  também 
conhecida como Knowledge Discovery in Databases (KDD), para geração de conhecimento a 
partir  de  padrões  de  dados  válidos,  complexos  e  potencialmente  úteis  (Fayyad,  Shapiro  e 
Smyth, 1996). A Mineração de dados, ou Data mining, tratase de uma etapa deste processo, 
que consiste na aplicação das técnicas computacionais em si para geração de conhecimento a 
partir de tais bases de dados.
A  aplicação  da  mineração  de  dados  requer,  inicialmente,  que  dois  fatores  sejam 
considerados,  sendo eles a  tarefa e a  técnica de mineração. A  tarefa consiste na definição e 
detalhamento do objetivo da exploração dos dados, ou seja, qual(is) é(são) a(s) categoria(s) de 
padrões que se deseja obter. Já a técnica se trata do método a ser utilizado para obtenção de 
tais  padrões  de  interesse.  Atualmente,  há  diversas  técnicas  de  mineração,  dentre  elas  as 
estatísticas  e  de  aprendizado  de  máquina,  por  exemplo.  Em  relação  às  tarefas,  estas  se 
subdividem,  basicamente,  em  Análise  de  Regras  de  Associação,  Análise  de  Padrões 
Sequenciais, Classificação e Predição, Análise de Agrupamentos e Análise de Outliers. 
A  identificação  de  padrões  de  consumo  de  bens  de  informação,  especificamente, 
filmes  em  salas  de  cinema  no  Brasil,  principalmente  no  que  se  refere  à  aplicação  da 
mineração  de  dados  para  obtenção  de  tais  informações,  tratase  de  um  aspecto  pouco 
explorado até então, o que motivou a realização deste trabalho.
Neste  contexto,  a  aplicação  da  tarefa  de  Classificação  dos  dados,  cuja  função  é 
examinar o conjunto de registros marcados com seus atributos correspondentes e identificar as 
características  (variáveis)  que  definem  tais  classes,  predizendo,  assim,  as  classes  que  os 
registros  ainda  não  classificados  pertencem,  possibilita  identificar,  de  forma  automatizada, 
precisa  e  a  partir  do  relacionamento  de  dados  quantitativos  e  qualitativos,  as  variáveis  que 
influenciam  na  decisão  de  consumo  dos  bens  de  informação,  podendo,  assim,  auxiliar  os 
13
recursos públicos na definição de políticas públicas que viabilizam o acesso legal a estes bem, 
bem como auxiliar recursos privados nas estratégias de vendas e produção. 
A  partir  disso,  a  contribuição  deste  trabalho  é  focada  na  aplicação  e  análise 
comparativa  de  dois  algoritmos  de  aprendizagem  de  máquina  para  classificação  de  dados 
popularmente  utilizados,  sendo  eles  Naive  Bayes  e  Support  Vetor  Machine  (SVM),  para 
identificação  de  padrões  de  consumo  de  filmes  em  sala  de  cinema  nacional,  bem  como  as 
vantagens e desvantagens da utilização de cada um destes, a partir das métricas relacionadas à 
precisão  de  cada  uma  destas,  bem  como  seus  desempenhos  computacionais,  conforme  as 
classes de brasileiros que assistiram ou não filmes em salas de cinema no Brasil durante os 12 
meses entre os anos 2008 e 2009, a partir do grande volume de dados disponível da Pesquisa 
de Orçamento Familiar (POF) realizada pelo Instituto Brasileiro de Geografia e Estatística.
1.1.1 Objetivos
Considerando  como  premissa  que  a  mineração  de  dados,  através  da  aplicação  de 
algoritmos  de  aprendizagem  de  máquina  para  classificação,  está,  nos  dias  atuais,  sendo 
amplamente  utilizada  de  forma  multidisciplinar  nos  mais  variados  contextos,  esta  também 
pode ser aplicada para identificação de padrões de consumo de um bem de informação.
Diante disso, o principal objetivo deste trabalho é efetuar a aplicação da mineração de 
dados, a partir de dois algoritmos atuais e populares de classificação, sendo estes Naive Bayes 
e Support Vetor Machine (SVM), para reconhecimento dos padrões do consumo de filmes em 
salas de cinema no Brasil pelos brasileiros, bem como efetuar uma análise dos seus resultados 
da aplicação de ambas as técnicas, a partir de medidas relacionadas à precisão e desempenho 
computacional.
Para atingir o objetivo geral deste  trabalho, os  seguintes objetivos específicos  foram 
estabelecidos:
• Efetuar uma  revisão bibliográfica  sobre  as  técnicas de mineração de dados  e 
reconhecimento de padrões e seus respectivos algoritmos de aplicação;
• Efetuar  uma  Revisão  Sistemática  (RS)  sobre  a  aplicação  das  técnicas  de 
mineração  de  dados  e  reconhecimento  de  padrões  para  identificação  de  determinantes  de 
consumo de forma geral;
• Aplicar o processo de KDD,  tendo como parte dele  a mineração de dados,  a 
partir das técnicas de classificação dos dados da Pesquisa de Orçamento Familiar 20082009 
(POF) utilizando os algoritmos Naive Bayes e Support Vetor Machine (SVM), com o objetivo 
14
de identificar os padrões do consumo dos brasileiros em relação ao bem de informação, filmes 
em salas de cinema no Brasil;
• Apresentar análise comparativa dos resultados obtidos a partir da aplicação de 
tais  técnicas de mineração de dados para  identificação dos padrões de  consumo do bem de 
informação  em  questão,  conforme  as  medidas  de  precisão  das  técnicas,  bem  como  seu 
respectivo  desempenho  computacional,  apresentando,  neste  contexto,  suas  vantagens  e 
desvantagens.
Adicionalmente,  buscase  com  este  trabalho  oferecer  como  resultado  aos 
pesquisadores da área a partir da aplicação das técnicas em um objeto pouco explorado neste 
aspecto, bem como às empresas do setor e governo que podem utilizar os resultados obtidos 
para otimização de seus processos e especificação de novos projetos.
1.1.2 Estrutura do documento
Esta dissertação é composta por cinco capítulos, sendo o primeiro deles a introdução 
ao tema, subdivididos da seguinte forma:
• O  capítulo  2  contém  a  fundamentação  teórica  do  trabalho,  a  partirda 
contextualização e a revisão bibliográfica, apresentando os principais conceitos relacionados a 
Knowledge Discovery in Databases (KDD), Mineração de dados e suas respectivas tarefas e 
técnicas, com ênfase nos algoritmos de aprendizagem de máquina para classificação de dados.
• O capítulo 3 apresenta a metodologia de pesquisa utilizada neste trabalho para 
aplicação dos dois algoritmos de aprendizagem de máquina para classificação de dados, sendo 
estes  Naive  Bayes  e  Support  Vetor  Machine  (SVM),  na  base  de  dados  da  Pesquisa  de 
Orçamento  Familiar  (POF)  20082009  do  Instituto  Brasileiro  de  Geografia  e  Estatística 
(IBGE).
• O capitulo 4 apresenta a condução e os resultados da Revisão Sistemática (RS) 
referente  aos  trabalhos  de  aplicação  dos  algoritmos  de  aprendizagem  de  máquina  para 
reconhecimento de padrões de consumo.
• O  capítulo  5  apresenta  os  resultados,  bem  como  a  análise  comparativa  das 
técnicas  de  classificação  de  dados  aplicadas  para  identificação  de  padrões  de  consumo  de 
filmes em salas de cinema no Brasil.
• O capítulo 6 apresenta a conclusão do trabalho, destacando às suas principais 
contribuições, suas limitações e trabalhos futuros.
15
2 Fundamentação teórica
2.1 Descoberta do conhecimento
O modelo tradicional que efetua a transformação dos dados em conhecimento consiste 
no processamento dos dados por especialistas que apresentam estes de forma que possam ser 
analisados,  porém,  nos  dias  atuais  devido  a  automação  dos  processos  e,  principalmente,  ao 
elevada quantidade de dados relacionados, que podem se encontrar até em fontes distintas, tal 
prática  se  torna  inviável.  A  partir  disso,  foi  apresentado  o  conceito  de  Descoberta  de 
conhecimento das bases de dados,  também denominado Knowledge Discovery  in Databases 
(KDD) (Fayyad, Shapiro e Smyth, 1996).
De acordo com Amo e Rocha (2003), o conceito de KDD e Mineração de dados (Data 
mining)  é  considerado  sinônimo  por  algumas  literaturas,  outras,  porém,  consideram  a 
Mineração de dados como uma etapa do processo de KDD, conforme detalhamento das etapas 
do processo em questão:
1. Limpeza dos dados: consiste na eliminação de dados inconsistentes, incorretos 
ou incompletos. 
2. Integração dos dados: consiste na junção e combinação dos dados apresentados 
de forma fragmentada, consolidando em apenas um fonte de dados centralizada.
3. Seleção  dos  dados:  consiste  na  definição  dos  atributos  e  variáveis  que  são 
relevantes para aplicação das técnicas em questão, a partir do conhecimento do tema.
3. Transformação dos dados: consiste na adequação dos dados para aplicação dos 
algoritmos de mineração. Segundo Camilo e Silva (2008), não há um critério específico para 
execução desta etapa, bem como a técnica a ser utilizada depende dos objetivos pretendidos, 
como  por  exemplo,  a  normalização,  que  consiste  na  inserção  de  variáveis  em  uma mesma 
escala,  agrupamento,  que  se  trata  da  junção  de  valores,  ou  até mesmo  a  criação  de  novos 
atributos, a partir de combinações dos já existentes.
4. Mineração:  aplicação  dos  algoritmos  de  aprendizagem  de  máquina  para 
extração dos padrões. 
5. Avaliação ou Pósprocessamento: consiste na análise dos resultados obtidos na 
etapa anterior, referente às variáveis que determinam a classificação dos dados e identificação 
de padrões.
16
6. Visualização dos Resultados: consiste na apresentação do conhecimento obtido 
a partir da base de dados utilizada aos usuários ou partes interessadas.
Conforme representação do processo de KDD na Figura 1.
Figura 1 – Etapas dos processos de KDD
Fonte: Amo e Rocha, 2003
Segundo  Fayyad,  Shapiro  e  Smyth,  1996,  o  termo  Mineração  de  Dados  ou  Data 
Mining, pode ser definido como um "passo no processo de Descoberta de Conhecimento que 
consiste na realização da análise dos dados e na aplicação de algoritmos de descoberta que, 
sob  certas  limitações  computacionais,  produzem  um  conjunto  de  padrões  de  certos  dados". 
Segundo  Camilo  e  Silva  (2009),  apesar  do  processo  de  mineração  de  dados  suportar  a 
descoberta do conhecimento de um volume elevado de dados, este processo não é puramente 
automático até o momento. A partir disso, existe uma série de ferramentas para execução dos 
algoritmos de mineração, bem como a análise dos resultados ainda precisa ser efetuadas por 
seres humanos.
No  contexto  de mineração  de  dados,  é  importante  destacar  os  conceitos  de  tarefa  e 
técnica de mineração. Segundo Viana e Bueno (2012), a tarefa se refere na especificação do 
objetivo de busca do dado, ou seja, o tipo de categoria e informação que se deseja obter. Já a 
técnica se refere no método que vai ser utilizado para executar a tarefa definida, ou seja, o que 
será feito para descobrir o padrão que interessa, esta pode se dividir em diversos tipos, sendo 
por exemplo, estatística, aprendizado de máquina, crescimento podavalidação, entre outros.   
Camilo e Silva (2009) afirmam que o processo de mineração de dados possui diversos 
tipos de tarefas para suportálos, sendo estas:
2.2 Classificação
17
A Classificação consiste na análise das características dos dados para atribuição a uma 
categoria  específica  previamente  definida.  Para  isso,  cada  registro  possui  os  atributos  de 
predição, em como o alvo. Podendo ser utilizada para identificar pessoas, classificar objetos e 
diagnosticar doenças, por exemplo. Suas principais técnicas são:
• Árvores  de  decisão  (decision  trees),  que  consistem  na  representação  do 
conhecimento  a  partir  de  um  número  finito  de  classes.  Ou  seja,  a  partir  da  variável  de 
avaliação definida, o algoritmo retorna as características associadas a ela a partir dos “ramos 
da  árvore.”  Os  nós  correspondem  aos  atributos,  as  ligações  entre  os  nós  representam  os 
valores  para  tais  atributos  e  as  folhas  representam diferentes  classes. A partir  disso,  após  a 
definição  da  área,  para  realização  de  um  novo  registro,  é  necessário  seguir  a  árvore,  cujo 
início é a raiz.
• Naive  Bayes,  que  consiste  em  uma  técnica  baseada  em  probabilidade, 
fundamentada  a  partir  do  teorema  de  Thomas  Bayes,  que  é  a  probabilidade  de  um  evento 
ocorrer, dada a probabilidade de outro que já ocorreu. Ou seja, Probabilidade (Y dado X) = 
Probabilidade(X e Y) / Probabilidade(X). 
• Classificação baseada em regras, que é similar a Associação, visto que possui o 
seguinte formato, SE condição ENTÃO conclusão, cujo objeto é criar associações, pares de 
registros que possuem similaridade.
• Redes  neurais  (Neural  Network),  que  são  baseadas  no  conceito  de  neurônio 
artificial  análogo  ao  neurônio  neural,  envolvendo  estruturas  matemáticas  que  possuem 
habilidade  de  aprendizado,  dessa  forma,  cada  unidade  de  entrada  e  saída  é  interligada  às 
outras por conexões que possuem pesos particulares, variando entre 1 e 1, que correspondem 
a  intensidade  da  conexão.  Apesar  da  técnica  em  questão  ter  a  capacidade  de  identificar 
padrões  para  os  quais  não  foi  treinada  técnica  em  questão  requer  um  longo  período  para 
treinamento, ajustes detalhados em seus parâmetros, bem como é complexa para utilização. 
• Support Vector Machine (SVM), que são utilizadas para classificação de dados 
em duas classes, cujos resultados apresentados com experimentos apresentam altos índices de 
assertividade,  possibilitando  modelar  situações  complexas  de  fácil  interpretação,  em 
contrapartida, seu tempo de aprendizado, geralmente, acaba sendo mais demorado. 
• Classificação baseada  em  regras de  associação, que  se  trata da  aplicação das 
regras de  associação para  classificação de dados  é uma abordagem  recente,  cujo objetivo  é 
basicamente  analisar  os  dados  de  treinamento  para  que  seobtenha  os  itens  frequentes,  e  a 
partir destes são geradas as regras para classificação dos dados.
18
• Algoritmos genéticos, que consiste na técnica baseada na teoria da evolução, a 
partir disso,  a população  inicial  é  aleatória  e  a  seguinte é originada a partir da evolução da 
anterior, em que seus atributos passagem por um processo de mutação, até que os atributos 
atinjam ao objetivo proposto. Uma das diferenças desta  técnica em relação as demais é que 
esta  trabalha  com  uma  população  e  não  somente  um  único  ponto,  utilizando  regras  de 
transição probabilísticas e não determinísticas (ICMC).
2.3 Regressão
A Regressão é similar a categorização, porém, consiste na  tarefa de  identificação do 
registro  a  partir  de  um valor  numérico  e  não  categórico. A  partir  disso,  a  regressão  possui 
técnicas  conhecidas  como  Regressão  Linear,  que  se  refere  à  técnica  em  que  a  relação  da 
variável  preditora  e  a  predição  possuem  comportamentos  lineares,  a  partir  disso,  o  que 
possibilita relacionar uma variável preditora a uma ou mais predições; e Regressão nãolinear, 
este  tipo  de  regressão  a  em  que  a  relação  da  variável  preditora  e  a  predição  não  possuem 
comportamentos lineares.
2.4 Agrupamento
O  agrupamento  (Clustering),  consiste  na  tarefa  de  aproximação/agrupamento  dos 
registro com base nas similaridades entre eles, segmentando os bancos de dados em grupos ou 
subconjunto, porém, não requerendo que estes estejam previamente categorizados, visto que o 
próprio  algoritmo  é  capaz  de  descobrir  as  classes.  Uma  das  técnicas  mais  utilizadas  nesta 
tarefa  é o kmeans,  cuja  função, basicamente,  é dividir  os dados  em subconjuntos,  também 
denominados clusters, cujo total destes clusters é definido inicialmente; e
2.5 Associação
A associação consiste na tarefa de identificação dos relacionamento dos atributos, no 
formato  de  SE...ENTÃO. A  partir  disso,  o  objetivo  da  tarefa  em  questão  é  identificar,  por 
exemplo, se X implica em Y. Sua implementação geralmente ocorre a partir de técnicas como 
Apriori, sampling, DHP, entre outras (Pimentel e Omar, 2006). 
19
2.6 Descrição
A descrição consiste na  tarefa de descrever os padrões  revelados pelos dados,  sendo 
muito utilizada no contexto de análise exploratória de tais dados.
Adicionalmente,  notase  que  as  tarefas  de  mineração  de  dados  possuem  funções 
distintas e precisam ser escolhidas de acordo com o problema e com o tipo de conhecimento 
que  precisa  ser  gerado,  e  para  cada  tarefa,  há  diversos  tipos  de  técnicas  que  podem  ser 
executadas de forma isolada ou combinadas para a realização das atividades de mineração de 
dados,  a  decisão  por  tais  combinações  dependem  de  fatores  relacionados  a  desempenho 
computacional e grau de precisão de cada técnica aplicada a cada situaçãoproblema.
2.7 Aprendizado de Máquina
O  Aprendizado  de  Máquina  (AM)  é  uma  área  da  Inteligência  Computacional  que 
estuda o desenvolvimento de métodos que possibilitam a extração de conhecimento a partir de 
dados, com isso, é avaliado a capacidade de um programa de computador aprender a melhorar 
seu desempenho para executar determinada tarefa, a partir de experiências passadas (Mitchell, 
1997).    Adicionalmente,  de  acordo  com  Han  (2006),  o  processo  de  desenvolvimento  das 
técnicas de Aprendizado de Máquina foi baseado em diversas áreas do conhecimento, como 
por exemplo, sistemas biológicos, o que gerou as Redes Neurais e Algoritmos genéricos, que 
possuem  como  associação  o  aprendizado  humano  (cérebro)  e  evolução  genética, 
respectivamente,  bem  como  aprendizado  simbólico,  representado  pelas Árvores  de  decisão, 
ou também, nas Teorias estatísticas, o que resultou em ténicas como Support Vector Machine 
(SVM).
Segundo Han (2006), o Aprendizado de Máquina é aplicado no processo de indução, 
que consiste em um conjunto de treinamento de um classificador para previsão das classes do 
domínio para o qual foi treinado. As técnicas de AM podem ser classificadas em dois tipos de 
paradigmas,  Aprendizado  Supervisionado  e  Aprendizado  NãoSupervisionado  (Haykin, 
2009), e a escolha destes paradigmas determina como tal aprendizado ocorrerá a partir de uma 
base de dados. Estas classificações se distinguem a partir dos aspectos detalhados abaixo:
• O Aprendizado Supervisionado  consiste  no  treinamento  a  partir  de  uma pré
categorização  dos  dados,  ou  seja,  exemplos  que  são  compostos  pelo  objeto  de  entrada  e  o 
valor  de  saída  esperado,  tendo,  assim,  a  figura  de  um  “professorexterno”.  A  partir  disso, 
20
treinamento do algoritmo acontece a partir da análise dos dados de treinamento para produção 
de uma saída inferida já apresentada, podendo, posteriormente, ser aplicado para classificação 
de  outros  dados  de  entrada  do mesmo  domínio. Árvores  de Decisão, KNearest Neighbour 
(KNN),  Naive  Bayes  e  Support  Vector  Machine  (SVM)  são  exemplos  de  algoritmos  que 
tratam este tipo de aprendizado de máquina.
• O Aprendizado NãoSupervisionado consiste em identificar uma estrutura não 
conhecida sem uma saída já definida, ou seja, não há essa figura de “professor”, o algoritmo 
aprende  a  agrupar  as  entradas,  a  partir  das  relações,  padrões,  categorias,  entre  outros,  que 
identifica, codificando a saída, com base em uma medida de similaridade entre os atributos. 
Clustering,  Estatística, Self Organizing Map  (SOM), Kmeans  são  exemplos  de  algoritmos 
que tratam este tipo de aprendizado de máquina.
21
3 Metodologia de Pesquisa
3.1 Revisão Bibliográfica
Para  levantamento  do  conhecimento  atual  veiculado  na  literatura  especializada  e 
referenciais teóricos sobre Knowledge Discovery in Databases (KDD), Mineração de dados, 
Aprendizagem de máquina e  suas  respectivas  tarefas  e  técnicas,  com ênfase nos algoritmos 
para Classificação de dados foi conduzida, incialmente, uma Pesquisa Bibliográfica sobre tais 
temas.
3.2 Revisão Sistemática
Posteriormente,  para  entendimento  da  aplicação  de  tais  algoritmos  de mineração  de 
dados para identificação de padrões de consumo foi conduzida uma Revisão Sistemática (RS), 
que segundo Biolchini (2005), tratase um método de pesquisa do conhecimento científico por 
meio  de  coleta,  combinação  e  avaliação  crítica  das  descobertas  das  abordagens  já 
apresentadas, seguindo, assim, as diretrizes estabelecidas por Kitchenham (2007). 
A condução da revisão possibilitou conhecer a aplicação de tais  técnicas comumente 
utilizadas no contexto de identificação de padrões de consumo de bens de informação, além 
de  conhecer  as  principais  vantagens  e  desvantagens  destas  para  o  contexto  em  que  foram 
aplicadas,  bem como os  principais  desafios  encontrados  referente  a  área  de  aplicação deste 
trabalho,  o  que  auxiliou  na  escolha  das  duas  técnicas  de  classificação  de  dados  aplicadas, 
Naive  Bayes  e  Support  Vetor  Machine  (SVM),  visto  que  estão  entre  as  mais  utilizadas  e 
apresentaram resultados positivos nos trabalhos analisados durante a RS.
3.2.1 Validação dos algoritmos de classificação
Para  a  aplicação  das  técnicas  de  classificação  dos  dados  da  Pesquisa  de Orçamento 
Famíliar  (POF)  realizada  durante  os  12  meses  entre  os  anos  de  20082009  pelo  Instituto 
Brasileiro de Geografia  e Estatística  (IBGE),  inicialmente,  foi  efetuado o entendimento dos 
dados contidos da base de dados em questão, conforme detalhado na seção 3.3.1, a partir de 
seu  layout,  descritivo  de  tabelas  e  relacionamento  entre  elas  e,  sequencialmente,  foram 
22
aplicadas todas as etapas previstas no processo de Knowledge Discovery in Databases (KDD), 
sendo estas:
1. Limpeza dos dados: consiste na eliminação de dados inconsistentes, incorretos 
ou incompletos.2. Integração dos dados: consiste na junção e combinação dos dados apresentados 
de forma fragmentada, consolidando em apenas um fonte de dados centralizada.
3. Seleção  dos  dados:  consiste  na  definição  dos  atributos  e  variáveis  que  são 
relevantes para aplicação das técnicas em questão, a partir do conhecimento do tema;
4.        Transformação dos dados: consiste na adequação dos dados para aplicação dos 
algoritmos de mineração. 
5. Mineração:  aplicação  dos  algoritmos  de  aprendizagem  de  máquina  para 
extração dos padrões. 
6. Avaliação ou Pósprocessamento: consiste na análise dos resultados obtidos na 
etapa anterior, referente às variáveis que determinam a classificação dos dados e identificação 
de padrões.
7. Visualização dos Resultados: consiste na apresentação do conhecimento obtido 
a partir da base de dados utilizada aos usuários ou partes interessadas.
De acordo com o IBGE, a Pesquisa de Orçamentos Familiares – POF se trata de uma 
“pesquisa  domiciliar  por  amostragem,  que  investiga  informações  sobre  características  de 
domicílios,  famílias,  moradores  e  principalmente  seus  respectivos  orçamentos,  isto  é,  suas 
despesas  e  recebimentos.”,  cuja  duração  é  de  12 meses  de  coleta  das  informações  de  uma 
amostragem significativa da população brasileira no período de 19 de maio de 2008 até 18 de 
maio de 2009. A partir disso, a partir da POF é possível mensurar os gastos, recebimentos e 
poupança da população através dos  indivíduos e das  famílias, bem como demonstrálos  em 
relação  às  regiões  do  país,  tipos  de  produtos  e  serviços,  e  como  tais  informações  se 
apresentam durante o período de um ano, contemplando todas as épocas. 
A  amostragem  considerada  na  POF  é  em  relação  aos  domicílios  particulares 
permanentes.  Em  tais  domicílios,  identificase  cada  unidade  básica  da  pesquisa,  que 
corresponde a cada morador do domicílio que compartilham da mesma fonte de alimentação 
ou  despesas  com  moradia.  Os  domínios  para  os  quais  se  pode  gerar  resultados  são: 
“Municípios das Capitais,  situação urbana,  e  área urbana das Regiões Metropolitanas,  estas 
últimas  incluindo  o  Município  da  Capital”,  conforme  IBGE.  Por  fim,  foram  consideradas 
como Regiões Metropolitanas na POF 20082009: Belém, Fortaleza, Recife, Salvador, Belo 
23
Horizonte, Rio de Janeiro, São Paulo, Curitiba e Porto Alegre. Adicionalmente, as amostras 
de domicílios  foram selecionadas de  forma aleatória e  foram distribuídas da seguinte  forma 
entre os estados brasileiros, totalizando em 55.970 domicílios entrevistados.
Diniz (2010) em seu  trabalho de análise do consumo de bens e serviços culturais no 
Brasil  metropolitano,  com  base  nos  dados  da  POF  20022003,  considerando  a  abordagem 
microeconômica do capital humano, em que o consumo de cultura é fortemente determinado 
pela  exposição prévia dos  indivíduos  a  tais  bens  e  serviços,  a  pesquisa  identificou  algumas 
características  individuais que  influenciam esta exposição. A partir disso, concluiuse que o 
consumo  cultural,  o  que  inclui  bens  de  informação,  como  filmes  em  salas  de  cinema,  é 
determinado por variáveis socioeconômicas, educacionais e sócio demográficas do chefe do 
domicílio, além das variáveis que indicam a localidade e região dos domicílios.  
Por  fim,  os  resultados  do  trabalho  em  questão  indicam  que  o  consumo  cultural  no 
Brasil é fortemente determinado pela renda e grau de educação do consumidor, concentrando
se de forma mais expressiva no rendimento domiciliar. Além disso, apresentou variações de 
acordo com as  regiões do país,  o que  levouse  a  associar  tal  consumo com as variações de 
oferta  e/ou  a  distinções  históricoculturais  de  cada  região,  bem  como  que  algumas 
características particulares do chefe do domicílio e, ao mesmo tempo, dos grupos influenciam 
o consumo, estas podendo ser, a idade, gênero, raça/etnia e religião, afinal, podem representar 
influências dos grupos e indicação de pertencimento a estes, e experiências pessoais de cada 
indivíduo.
A  partir  de  tais  informações,  este  trabalho  considerou  para  construção  dos 
classificadores,  treinamento,  testes  e  análise  dos  resultados  os  dados  relacionados  aos 
domicílios, bem como de cada indivíduo, referente às variáveis socioeconômicas (renda, sexo, 
idade,  bem  e  papel  na  família,  por  exemplo),  educacionais  (grau  de  escolaridade,  por 
exemplo), sócio demográficas do chefe do domicílio e variáveis que  indicam a  localidade e 
região  dos  domicílios  (localização,  estado,  região  metropolitana,  zona  rural/urbana,  por 
exemplo), além das informações de consumo de bens e serviços relacionados a cultura.
Para  a  construção,  treinamento  e  testes  dos  classificadores,  bem  como  para  as 
atividades iniciais de limpeza, integração e transformação dos dados, será utilizado o software 
Waikato Environment for Knowledge Analysis (WEKA), que, conforme Abertnethy (2010), 
consiste  em  um  software  gratuito  e  de  código  aberto,  utilizado  par  mineração  de  dados  e 
transformação de conhecimento, que possibilita a implementação dos algoritmos escopo deste 
trabalho, Naive Bayes  e  SVM. Tratase  de  um  produto  desenvolvido  pela Universidade  de 
Waikato  (Nova  Zelândia),  que  utilizada  a  GNU  General  Public  License  (GPL)  e  foi 
24
codificado  em  linguagem  Java™.  Adicionalmente,  contém  uma  GUI  para  interação  com 
arquivos  de  dados  e  geração  de  resultados  visuais,  como  por  exemplo,  tabelas  e  gráficos. 
Dessa forma, todo o processo previsto no KDD será suportado pelo software em questão.
Considerando  que  toda  técnica  de  mineração  de  dados  passa  por  um  processo  de 
treinamento, ou, também, denominado aprendizado, que consiste na apresentação dos dados já 
processados para o algoritmo aprender  tais características e  identificar os padrões úteis para 
descoberta do conhecimento,  esta  será  a  etapa  inicial  para  a  construção dos  classificadores. 
Posteriormente, visto que os algoritmos objeto deste trabalho são baseados em Aprendizagem 
Supervisionada,  que utiliza  de um atributo  chave para definição das  classes  dos dados,  tais 
exemplos serão utilizados nesta fase de treinamento. 
Como a base da POF possui muitos registros, estes serão divididos entre as  fases de 
treinamento,  teste  e  validação  do  modelo,  conforme  detalhamento  da  subdivisão  dos  três 
conjuntos, segundo Camilo e Silva (2009):
i. Conjunto  de  Treinamento  (Training  Set),  consiste  nos  registros  para 
desenvolvimento do modelo; 
ii. Conjunto de Testes (Test Set), consiste no conjunto de registros utilizados para 
teste do modelo;
iii. Conjunto  de  Validação  (Validation  Set),  consiste  no  conjunto  de  registros 
utilizados para validação do modelo;
Dessa forma, a divisão da quantidade de registros da fase de  treinamento e  teste dos 
classificadores corresponderá a 90% da amostra de dados da base da POF. Após a modelagem 
e  construção  dos  classificadores,  o  modelo  será  validado  utilizando  os  10%  restantes  dos 
dados  da  POF,  não  utilizados  na  fase  de  treinamento,  para  categorização  dos  indivíduos.   
Adicionalmente,  tal  divisão  é  efetuada  para  não  se  criar  dependência  do  modelo  para  um 
conjunto de dados  específico, mas  sim para  este  ser  submetido  a outros dados  e  apresentar 
precisão satisfatória. 
A  partir  dos  dados  da  POF,  os  seguintes  classificadores  macro  serão  previamente 
definidos  para  treinamento  e  comparação  dos  resultados:  a.  Indivíduos  e  famílias  que 
consumiram  filmes  em  salas  de  cinema  no  Brasil;  e  b.  Indivíduos  e  famílias  que  não 
consumiram filmes em salas de cinema no Brasil.
Por  fim,  a  avaliação dos  resultados obtidos  e  análise  comparativa dos  algoritmosde 
classificação,  a  partir  dos  seus  respectivos  conjuntos  de  estimativas,  será  efetuada 
considerando  o  desempenho  dos  algoritmos  a  partir  das  medidas  de  precisão,  cobertura  e 
acurácia,  que  segundo,  são  medidas  interessantes  na  avaliação  do  desempenho  de 
25
classificações binárias,  suas definições podem ser vistas nas Fórmulas 1, 2 e 3, abaixo, que 
representam  a  porcentagem  dos  dados  pertencentes    à  classe  e  que  foram  recuperados 
(Predição),  porcentagem  dos  dados  que  foram  corretamente  classificados  (Cobertura)  e  a 
porcentagem  dos  dados  que  foram  corretamente  classificados  em  relação  à  medida  de 
acurácia (Acurácia) (Boeachat, 2012).
                      
Predição =  Pv/(Pv + Pf)   (1
)
Cobertura =  Pv/(Pv + Nf)   (2
)
Acurácia = (Pv + Nv)/Pv + Pf + Nv + Nf (3
)
26
4 Revisão Sistemática
O  objetivo  da  Revisão  Sistemática  foi  identificar  os  métodos  e  técnicas  de 
reconhecimento  de  padrões  mais  utilizados  no  estado  na  arte  e  observar  os  experimentos 
relacionados  à  aplicação  dos  algoritmos  para  identificação  de  determinantes  de  padrões  de 
consumo, bem como os resultados e fatores considerados para as análises comparativas entre 
tais técnicas.
4.1.1 Questões de pesquisa
Foram elaboradas uma questão principal de pesquisa e uma questão  secundária para 
atender aos objetivos propostos desta Revisão Sistemática, sendo estas:
Questão  primária: Que  tipo  e  quais  técnicas  de  reconhecimento  de  padrões 
são aplicadas para identificação de determinantes de padrões de consumo?
Para  responder  esta  pergunta  foram  consideradas,  além dos  nomes  dos  algoritmos  e 
suas respectivas técnicas, estas podendo ser Redes Neurais, Arvores de Decisão e ETC, foram 
consideradas  também  as  seguintes  classificações:  Aprendizado  Supervisionado,  e  suas 
subdivisões Classificação e Regressão, e Aprendizado nãosupervisionado e suas subdivisões 
Agrupamento e Regras de Associação.
Questão  secundária  1:  Quais  são  as  principais  vantagens  e  desvantagens 
apresentadas na utilização de cada uma das técnicas estudadas?
Para  responder  esta  pergunta  foram  considerados  todos  os  aspectos  e  critérios 
apresentados  nas  pesquisas  referente  aos  pontos  positivos  e  negativos  da  aplicação  dos 
algoritmos de reconhecimento de padrões estudados.
4.2 Estratégia de busca para seleção de estudos
A busca e  seleção dos estudos ocorreu a partir  considerando como  fonte de dados a 
base  biblioteca  digital  IEEExplore.  A  fonte  em  questão  foi  escolhida  a  partir  de  análise 
exploratória  em  relação  ao  tema geral  de  pesquisa,  visto  que  é  um  repositório  de  busca  de 
trabalhos muito reconhecido nesta área. Foi considerado somente trabalhos no idioma inglês, 
visto  que  é  a  principal  língua  para  redação  de  trabalhos  científicos  conhecida  e  aceita 
27
internacionalmente. A  string  de  busca  formada  na  etapa  de  condução  da RS  considerou  as 
seguintes  palavraschave:  "variable  selection”,  "feature  selection”,  "consumption".  As 
respectivas  palavraschave  foram  definidas  com  base  na  análise  exploratória  efetuada  a 
respeito do assunto e, também, com base nas questões de pesquisa, cujo objetivo é verificar de 
forma  ampla  as  técnicas  de  aprendizagem  de  máquina  aplicadas  para  reconhecimento  de 
padrões  de  consumo,  sem  restrição  a  uma  técnica  ou  modelo  específico  de  mineração  de 
dados.
4.2.1 Uma seção terciária
Foram  considerados  nesta  Revisão  Sistemática  os  seguintes  critérios  de  inclusão  e 
exclusão, respectivamente, para a seleção dos estudos:
Critérios de inclusão
CI.1: Serão incluídos trabalhos publicados e disponíveis em bases de dados científicas 
ou em versões impressas.
CI.2:  Serão  incluídos  trabalhos  que  possuam  abordagem  de  aplicação  de métodos  e 
técnicas de aprendizagem de máquina e reconhecimento de padrões.
CI.3: Serão incluídos trabalhos que efetuam comparação das técnicas de aprendizagem 
de  máquina  e  reconhecimento  de  padrões  de  bases  de  dados  que  envolvam  bens  de 
informação e que possuam aplicação para determinação de padrões de consumo.
CI.4:  Serão  incluídos  trabalhos  que  propõem  novas  técnicas  de  aprendizagem  de 
máquina e reconhecimento de padrões e apresentem seus benefícios e vantagens em relação às 
técnicas já existentes.
Critérios de exclusão
CE.1: Serão excluídos trabalhos que apresentam avaliações sem apresentar o método e 
técnicas utilizadas.
CE.2:  Serão  excluídos  trabalhos  que  não  apresentem  estudos  experimentais  para 
validar a proposta de aplicação de determinada(s)  técnica(s) de aprendizagem de máquina e 
reconhecimento de padrões.
CE.3:  Serão  excluídos  trabalhos  que  não  possuam  análise  das  vantagens  e 
desvantagens  referente  à  aplicação  de  um ou mais métodos  e  técnicas  de  aprendizagem de 
máquina e reconhecimento de padrões.
28
4.3 Outra seção secundária
O processo de seleção de estudos primários contemplou a elaboração de string com as 
palavraschave definidas. A partir disso, a string foi submetida à máquina de busca do IEEE 
Xplore. 
Após a  leitura do  título, ano de publicação e resumo dos artigos,  foram aplicados os 
critérios de inclusão e exclusão para préseleção do trabalho, posteriormente, todos os textos 
foram  lidos na  íntegra e selecionados,  se confirmada a sua  relevância pelo principal  revisor 
(aluno). Nas situações de dúvida da relevância, o orientador foi consultado.
Os  trabalhos  incluídos  na  revisão  sistemática  foram  lidos  na  íntegra  e  foi  elaborada 
uma resenha de todos eles, destacando os métodos e técnicas utilizadas em relação ao objetivo 
proposto. Foram extraídas as seguintes as informações dos trabalhos relacionados:
Data de publicação;
Local de publicação;
Autores;
Resumo/abstract;
Métodos e Técnicas utilizadas.
Adicionalmente, a partir dos objetivos propostos, foram definidas três categorias para 
classificação dos trabalhos, sendo estas:
I. Comparação  de  técnicas  de  reconhecimento  de  padrões:  artigos  que 
apresentem,  em  sua  essência,  experimentos  e  estudos  de  caso  de  comparação  de  diferentes 
técnicas de reconhecimento de padrões, apresentando a análise das vantagens e desvantagens 
destas;
II. Aplicação de técnicas de reconhecimentos de padrões: artigos que apresentem, 
em  sua  essência,  somente  experimentos  e  estudos  de  caso  de  aplicação  de  uma  técnica  de 
reconhecimento de padrões em um contexto específico.
III. Novos modelos  ou  combinações  de  técnicas  de  reconhecimento  de  padrões: 
artigos que apresentem, em sua essência, experimentos e estudos de caso que propõem novas 
técnicas ou a combinação destas de forma inovadora.
4.4 Condução
29
Para seleção dos estudos foi efetuada a formação de string genérica de busca a partir 
das combinações das palavras chave definidas, sendo esta: 
("variable selection" OR "feature selection") AND "consumption"
A  partir  disso,  seguindo  as  regras  da  fonte  de  busca  da  pesquisa,  IEEE Xplore,  foi 
gerada a seguinte string:
(((("variable selection") OR "feature selection") AND "consumption"))
Ao todo, a máquina de busca retornou 48 artigos que foram submetidos ao processo de 
seleção  de  estudos,  aplicação  dos  critérios  de  inclusão  e  exclusão  e,  dessa  forma,  foram 
selecionados 20 artigos de estudo para compor a síntese da pesquisa. A Tabela 1 apresenta a 
relação  de  artigos  submetidos  ao  processo  de  seleção  e,  também,  em  sua  última  coluna,  o 
resultado das análises de tais artigos. 
A leitura completa de cada um dos trabalhos selecionados foi realizada e para análise 
de tais artigos, estes foram categorizados e, a partir das categorias apresentadas anteriormente, 
foi  utilizado  um  formulário  padrão  para  extração  das  informaçõesnecessárias,  conforme 
informações apresentadas na subseção “Seleção final” do processo de seleção de estudos. 
A análise dos resultados obtidos, de acordo com as informações coletadas e as leituras 
efetuadas, encontrase descrita nas próximas seções.
4.5 Resultados
Nesta  seção,  serão  apresentados  os  resultados  obtidos  com  a  condução  da  revisão 
sistemática, conforme objetivos e questões de pesquisa descritos nas seções anteriores. 
A partir disso, o sumário dos trabalhos selecionados se encontra apresentado na Tabela 
2.  Algumas  colunas  como  “Ano”,  “Veículo  de  Publicação”  e,  principalmente,  “Técnicas 
utilizadas” foram acrescentadas para auxiliar o mapeamento dos trabalhos. A primeira coluna 
da tabela apresenta o índice dos 20 artigos selecionados. A coluna “Título” contém o título do 
trabalho selecionado. As colunas  intituladas como “Ano”, “País” e “Veículo de publicação” 
apresenta  o  ano,  o  país  e  o  veículo  em  que  o  trabalho  foi  publicado,  respectivamente.  A 
coluna “Autores” contém a relação de todos os autores responsáveis pelo trabalho. A coluna 
“Categoria”  apresenta  a  categoria  de  cada  artigo,  conforme  especificação  desta  na  seção 
anterior. E, por fim, a coluna intitulada como “Técnicas utilizadas”, apresenta as técnicas de 
30
reconhecimento  de  padrões  ou  seleção  de  variáveis  estudadas  e  utilizadas  nos  trabalhos 
selecionados.
A pesquisa demonstrou que não há uma concentração expressiva na utilização de uma 
técnica  de  reconhecimento  de  padrões  específica,  as  pesquisas  apresentam  a  análise 
comparativa e estudos experimentais de técnicas diversas, conforme apresentado na Tabela 2. 
Porém,  notase  que  a  técnica  como  SVM  (Support  Vector  Machine)  foi  apresentada  com 
maior frequência nas pesquisas.
Tabela 2 – Sumário dos trabalhos selecionados
#
Título
Ano  País
Veículo de 
publicação
Autores Categoria
Técnicas 
utilizadas
1
A Naive Feature 
Selection 
Method and Its 
Application in 
Network 
Intrusion 
Detection
2010 China
Computational 
Intelligence and 
Security (CIS), 2010 
International 
Conference
Tieming Chen; 
Xiaoming Pan; 
Yiguang Xuan; 
Jixia Ma; Jie 
Jiang
Aplicação de 
técnicas de 
reconhecimentos 
de padrões C4.5, CFS
2
Mutivariable 
mutual 
information 
based feature 
selection for 
electricity price 
forecasting
2012 China
Machine Learning 
and Cybernetics 
(ICMLC), 2012 
International 
Conference
ZhiWei Qiu
Comparação de 
técnicas de 
reconhecimentos 
de padrões
SVR
MMISVR
MIMISVR
MISVR
3
Feature 
selection for 
support vector 
regression in the 
application of 
building energy 
prediction
2011 China
Applied Machine 
Intelligence and 
Informatics (SAMI), 
2011 IEEE 9th 
International 
Symposium
Haixiang 
Zhao; 
Magoulès, F.
Aplicação de 
técnicas de 
reconhecimentos 
de padrões SVR
4
A feature 
selection 
method for 
malware 
detection
2011 China
Information and 
Automation (ICIA), 
2011 IEEE 
International 
Conference 
Qingshan 
Jiang; Xinxing 
Zhao; Kai 
Huang
Aplicação de 
técnicas de 
reconhecimentos 
de padrões
CDCBF
IG
DSFS
FCBF
5 Optimizing 
Traffic 
Classification 
2008 China WebAge 
Information 
Management, 2008. 
Dai Lei; Yun 
Xiaochun; Xiao 
Jun
Aplicação de 
técnicas de 
reconhecimentos 
ChiSquared – 
C4.5 NBK 
FCBF
31
Using Hybrid 
Feature 
Selection
WAIM '08. The 
Ninth International 
Conference
de padrões
6
Approximate 
nearest neighbor 
search using 
selforganizing 
map clustering 
for face 
recognition 
system
2014 Tailândia
Computer Science 
and Engineering 
Conference 
(ICSEC), 2014 
International 
Yodkhad, P.; 
Kawewong, A.; 
Patanukhom, 
K.
Comparação de 
técnicas de 
reconhecimentos 
de padrões
SOM 
Clustering 
combinado 
com PCA
2DPCA
SOMFace
 kd Tree.
7
New method for 
nonintrusive 
data extraction 
and 
classification of 
residential 
appliances
2011 China
Control and 
Decision Conference 
(CCDC), 2011 
Chinese
Zhenyu Wang; 
Guilin Zheng
Novos modelos 
ou combinações 
de técnicas de 
reconhecimento 
de padrões
NILM, DSM
8
Mining 
Recurring 
Concepts in a 
Dynamic 
Feature Space
2014 Cingapura
Neural Networks 
and Learning 
Systems, IEEE 
Transactions on 
Gomes, J.B.; 
Gaber, M.M.; 
Sousa, P.A.C.; 
Menasalvas, E.
Novos modelos 
ou combinações 
de técnicas de 
reconhecimento 
de padrões
MReCDFS 
comparado 
com
NB
MW(100)
OzBoostAdwi
n
DWM
DDM
Rec
Rec+DFS(0.0
1) 
Rec+DFS(30
0) 
Rec+DFS(Ad
ap)
9 Ensemble based 
optimal 
classification 
model for pre
diagnosis of 
lung cancer
2013 Índia Computing, 
Communications 
and Networking 
Technologies 
(ICCCNT),2013 
Fourth International 
Balachandran, 
K.; Anitha, R.
Comparação de 
técnicas de 
reconhecimentos 
de padrões
SMO
MultiLayer 
Perceptron 
(MLP)
IBK
Logistic
32
Conference on  Random 
Forest  (RF) 
Multiclass 
Classifier
LogitBoost e 
RandomTree 
10
GATSC4.5: An 
Algorithm for 
Optimizing 
Features in Flow 
Classification
2008 China
Consumer 
Communications 
and Networking 
Conference, 2008. 
CCNC 2008
You Chen; Lei 
Dai; XueQi 
Cheng
Aplicação de 
técnicas de 
reconhecimentos 
de padrões
GATS  C4.5
11
Classification 
Related 
Manifold 
Dimension 
Estimation with 
Restricted 
Boltzmann 
Machine
2013 China
Image and Graphics 
(ICIG), 2013 
Seventh 
International 
Conference on
Kezhen Teng; 
Jinqiao Wang
Novos modelos 
ou combinações 
de técnicas de 
reconhecimento 
de padrões
RBM, SVM
12
Analysis of 
Features 
Selection and 
Machine 
Learning 
Classifier in 
Android 
Malware 
Detection
2014 Malásia
Information Science 
and Applications 
(ICISA), 2014 
International 
Conference on
Mas'ud, M.Z.; 
Sahib, S.; 
Abdollah, 
M.F.; Selamat, 
S.R.; Yusof, R.
Comparação de 
técnicas de 
reconhecimentos 
de padrões
Naïve Bayes 
(NB) 
Knearest
Neighbour 
(KNN) 
Decision Tree 
(J48) Multi
Layer 
Perceptron 
(MLP) 
Random 
Forest (RF)
13
Relation of 
home energy 
consumption 
and static 
properties of 
consumers
2011 China
Awareness Science 
and Technology 
(iCAST), 2011 3rd 
International 
Conference on
Tamano, K.; 
Tsuji, H.
Novos modelos 
ou combinações 
de técnicas de 
reconhecimento 
de padrões
Naïve Bayes 
(NB)
14 The research of 
the resident user 
classification 
2012 China Fuzzy Systems and 
Knowledge 
Discovery (FSKD), 
Suxiang Zhang Novos modelos 
ou combinações 
de técnicas de 
ME 
(maximum 
entropy)
33
based on the 
maximum 
entropy in the 
smart grid
2012 9th 
International 
Conference on
reconhecimento 
de padrões
15
EnergyEfficient 
Signal 
Classification in 
Ad hoc Wireless 
Sensor 
Networks
2008 Itália
Instrumentation and 
Measurement, IEEE 
Transactions on
Pianegiani, F.; 
Mingqing Hu; 
Boni, A.; Petri, 
D.
Novos modelos 
ou combinações 
de técnicas de 
reconhecimento 
de padrões
νSVM 
16
Dayahead price 
forecasting of 
electricity 
markets by 
combination of 
mutual 
information 
technique and 
neural network
2008 EUA
Power and Energy 
Society General 
Meeting  
Conversion and 
Delivery of 
Electrical Energy in 
the 21st Century, 
2008 IEEE
Amjady, N.; 
Daraeepour, A.
Novos modelos 
ou combinações 
de técnicas de 
reconhecimento 
de padrões
AC+ARIMA 
AC+NN 
PCA+NN 
MI+NN
17
A smart phone
based pocket 
fall accident 
detection system
2014 China
Bioelectronics and 
Bioinformatics 
(ISBB), 2014 IEEE 
International 
Symposium on
LihJen Kau; 
ChihSheng 
Chen
Aplicação de 
técnicas de 
reconhecimentos 
de padrões
SVM
18
What is the 
importance of 
selecting 
features for non
technical losses 
identification?
2011 Brasil
Circuits and Systems 
(ISCAS), 2011 IEEE 
International 
Symposium on
Ramos, C.C.O.; 
Papa, J.P.; 
Souza,A.N.; 
Chiachia, G.; 
Falcao, A.X.
Comparação de 
técnicas de 
reconhecimentos 
de padrões
OPF
OPFPSO
SVMRBF
SVM
noKernel 
ANNMLP
SOM
kNN
19 Improving 
reinforcement 
learning 
algorithms by 
the use of data 
mining 
techniques for 
feature and 
2010 Brasil Systems Man and 
Cybernetics (SMC), 
2010 IEEE 
International 
Conference on
de L Vieira, 
D.C.; 
Adeodato, 
P.J.L.; 
Gonçalves, 
P.M.
Novos modelos 
ou combinações 
de técnicas de 
reconhecimento 
de padrões
LVF
34
action selection
20
Lightweight 
IDS Based on 
Features 
Selection and 
IDS 
Classification 
Scheme
2009 Canadá
Computational 
Science and 
Engineering, 2009. 
CSE '09. 
International 
Conference on 
Zaman, S.; 
Karray, F.
Novos modelos 
ou combinações 
de técnicas de 
reconhecimento 
de padrões
SVM
IDS
Adicionalmente, a pesquisa realizada mostrou, também, que os estudos relacionados a 
reconhecimento  de  padrões  e  técnicas  de  mineração  de  dados  estão  concentrados  no 
continente  asiático,  com  destaque  a  China,  representa  75%  dos  artigos  selecionados. 
Adicionalmente, 20% na América, sendo 10% na América do Sul (Brasil) e 10% na América 
do Norte, e 5% na Europa (Itália).
Os  trabalhos  relacionados  na  Tabela  2  são  sucintamente  apresentados  nas  próximas 
subseções, organizados de acordo com as classificações atribuídas aos grupos de artigos:
Comparação de técnicas de reconhecimentos de padrões
Os  artigos  pertencentes  ao  grupo  em  questão  se  referem  ao  estudo  e  análise 
comparativa de diferentes  técnicas de reconhecimento de padrões e seleção de variáveis em 
cenários distintos.
Mas'ud,  Sahib,  Abdollah,  Selamat  e  Yusof  (2014)  apresentam  experimentos  para 
comparação  de  métodos  de  aprendizagem  de  máquina  para  classificação  de  variáveis  no 
contexto de detecção de malwares para Android, utilizando as seguintes técnicas Naïve Bayes 
(NB), Knearest, Neighbour  (KNN), Decision Tree  (J48), MultiLayer  Perceptron  (MLP)  e 
Random  Forest  (RF)  em  máquinas  de  aprendizagem  de  classificadores  distintas.  A  partir 
disso, o resultado do estudo indicou que foi alcançado o melhor desempenho global a partir 
do método MLP utilizando o conjunto de seleção derivado do método de seleção de atributos.  
Já ZhiWei (2012) apresenta efetua estudos experimentais comparando a técnica SVR 
e suas variações (MMISVR, MIMISVR, MISVR) no contexto de identificação de padrões 
de  consumo  de  eletricidade  para  projeção  dos  seus  respectivos  preços.  Os  experimentos 
efetuados  demonstram  que  tal  método  juntamente  com  a  proposta  de  “informação  mútua 
35
multivariada”  (MMISVR)  para  seleção  deste  tipo  de  variável  atinge  previsão  mais  exata 
neste contexto do que outros métodos de seleção conhecidos.
Yodkhad,  Kawewong  e  Patanukhom  (2014)  propõe  a  aplicação  da  rede  SOM  para 
busca  de  agrupamentos  de  bases  de  dados,  melhorando  a  eficiência  do  sistema  de 
reconhecimento facial do “vizinho” mais próximo. Neste contexto, o desempenho do método 
em  questão  foi  aplicado  em  três  métodos  de  extração  de  características,  sendo  eles  PCA 
(Análise  de  componentes  principais),  2DPCA  (Análise  bidimensional  de  componentes 
principais) e SOMFace.  Por fim, os experimentos em 1560 imagens faciais de 156 pessoas 
demonstraram que o método proposto possui melhor desempenho que a  árvore kd e busca 
por força bruta.
Em  contrapartida,  a  partir  de  estudos  experimentais  realizados  por  Ramos,  Papa, 
Souza,  Chiachia  e  Falcao  (2011),  no  contexto  de  perdas  não  técnicas  de  identificação 
automática,  a  técnica  SOM  não  apresentou  melhor  desempenho,  visto  que  foi  efetuada  a 
comparação da técnica OPF com outras técnicas de reconhecimento de padrões relacionadas a 
perdas não técnicas de identificação automática, sendo estas a própria SOM e outras técnicas 
como  SVMRBF,  SVMnoKernel,  ANNMLP  e  kNN,  e,  posteriormente,  o  método 
tradicional  OPF  foi  comparado  com  o  OPFPSO  a  fim  de  selecionar  os  atributos  mais 
representativos  e  também  classificálos.    A  partir  disso,  o  resultado  dos  experimentos 
demonstraram que, no primeiro, os classificadores mais precisos foram OPF e kNN e já no 
segundo o modelo OPFPSO apresentou melhores resultados em relação ao OPF.
No contexto de utilização da mineração de dados para definição de classificadores de 
predição  de  câncer  de  pulmão  com  base  nos  sintomas  e  fatores  de  risco  da  doença, 
Balachandran  e  Anitha  (2013)  observaram  através  de  experimentos,  que  a  abordagem  do 
treinamento supervisionado é superior à abordagem de validação cruzada e que os algoritmos 
de  classificação  como  SMO,  MultiLayer  Perceptron,  IBK,  Logistic,  Random  Forest 
,Multiclass  Classifier,  LogitBoost  e  RandomTree  são  mais  adequados  no  contexto  de 
treinamento supervisionado para agrupamento de dados.
Aplicação de técnicas de reconhecimentos de padrões
Os  artigos  pertencentes  ao  grupo  em  questão  se  referem  à  aplicação  de  técnicas  de 
reconhecimento  de  padrões  e  seleção  de  variáveis  em  cenários  pouco  explorados  até  o 
momento.
36
Haixiang e Magoulès (2011) apresentam a aplicação do modelo SVR no contexto de 
consumo  de  energia,  a  partir  de  experimentos  em  dois  núcleos  (Kernels)  distintos,  porém, 
ambos demostram que os métodos propostos possibilitam a seleção ótima de um subconjunto 
de variáveis em um tempo computacional reduzido.
Dai,  Yun  e  Xiao  (2008)  Jun  apresentam  um  método  de  seleção  de  característica 
híbrida para classificação de um fluxo no contexto de classificação das aplicações em rede, 
utilizando  o  algoritmo  ChiSquared  –  C4.5,  os  experimentos  efetuados  indicam  que  a 
abordagem  proposta  pode  reduzir  significativamente  o  desempenho  computacional  sem 
impactar  na  precisão  da  classificação.  Adicionalmente,  tais  experimentos  indicam  também 
esta abordagem funciona melhor do que o método NBK FCBF.
Reforçando  o  estudo  acima,  Chen;  Dai;  Cheng  (2008)  propõem  a  seleção  de 
características dos dados através do algoritmo baseado em árvores de seleção, GATS  C4.5, 
sendo o Algoritmo Genético de Busca Tabu (GATS) como estratégia de busca e o algoritmo 
C4.5 como função de avaliação, para a construção de um classificador de fluxo “leve”. E tais 
experimentos também demonstraram que a técnica em questão possui velocidade rápida e alta 
precisão,  dessa  forma,  o  classificador  utilizando  esta  combinação  possui  uma  melhora 
significativa  no  desempenho  computacional  sem  impacto  negativo  na  previsão  da 
classificação, além disso, indica também que o desempenho é superior a classificadores como 
NBKFCBF em todas as classes.
Já  Tieming,  Xiaoming,  Yiguang,  Jixia  e  Jie  (2010),  propõem  um  recurso  de  busca 
eficiente para seleção de características relevantes e não redundantes no contexto de intrusão 
de rede, utilizando os algoritmos C4.5 e CFS, e tais experimentos também indicam a seleção 
ótima de recursos com um bom desempenho computacional a partir de tais técnicas.
Em paralelo, Qingshan, Xinxing  e Huang  (2011)  propõe uma métrica  de  seleção de 
características,  método  CDCBF  (Class  Driven  Correlation  based  Feature  Selection),  no 
contexto  de  detecção  de malwares,  que  verifica  os  subgrupos  que  possuem  classificação  e 
calcula a associação entre as suas características, apresentando, também, resultados positivos 
em relação à precisão da classificação e custo computacional de processamento.
Por  fim,  LihJen;  ChihSheng  (2014)  propõem  um  smartphone  com  um  sistema 
inteligente  de  detecção  de  acidentes  utilizando  a  técnica  SVM  que  apresentou  resultados 
vantajosos  em  relação  carga  computacional  e  consumo  de  energia,visto  que  foram 
representativamente  reduzidos,  além  do  bom  desempenho  e  aumento  na 
precisão/especificidade dos resultados obtidos.
37
Novos modelos ou combinações de técnicas de reconhecimento de padrões
Por fim, os artigos pertencentes ao grupo em questão se referem a novas propostas de 
técnicas de reconhecimento de padrões e seleção de variáveis, se distinguindo no contexto em 
que foram aplicadas e nas combinações de técnicas utilizadas em tais experimentos. 
Wang  e  Zheng  (2011)  utilizaram  variações  das  técnicas  NILM,  DSM  para  da 
classificação e identificação de dados de forma não intrusiva nos aparelhos de monitoramento 
residencial, utilizando o tempo de reação humana como unidade escala de tempo (frequência 
de  amostragem).    Já  Gomes,  Gaber,  Sousa  e  MenaSalvas  (2014),  combinaram  a  técnica 
MReCDFS  com  NB,  MW(100),  OzBoostAdwin,  DWM,  DDM,  Rec,  Rec+DFS(0.01), 
Rec+DFS(300),  Rec+DFS(Adap)  para  elaboração  de  um  sistema  de  aprendizado  fluxo  de 
dados em um espaço que possui característica dinâmica, cujos resultados apresentaram que a 
seleção de recurso minimiza o custo associado para aprendizagem de máquina neste cenário. 
Tamano,  Tsuji  (2011),  utilizou  uma  variação  da  técnica  de Naïve  Bayes  (NB)  para 
desenvolvimento  de  um  método  rápido  de  notificação  de  consumo  de  energia  e  suas 
tendências de consumo, cujos experimentos demonstraram que a precisão obtida não é muito 
elevada, porém, têmse diversas propriedades estáticas sugestivas. No ano seguinte, em 2012, 
Suxiang apresentou a variação da  técnica ME (maximum entropy) para,  também  identificar 
padrões de consumo de energia, que apresentou vantagens em relação à  técnica original em 
relação à precisão dos resultados obtidos.
Teng e Wang (2013) propõem um método para estimar a classificação relacionada à 
estratégia  de  estimação  da  dimensão  utilizando  RBM  (Restricted  Boltzmann  Machine)  e 
classificadores SVM. Adicionalmente,  uma nova  estratégia  de  inicialização  é  proposta  para 
acelerar o processo de treinamento da máquina (RBM) e tais métodos foram verificados em 
conjuntos de dados  reais  e  sintéticos,  e,  com  isso,  temse  como  resultado que o método de 
classificação,  em  relação  à  estratégia  de  estimativa  de  dimensão  a  partir  da  utilização  da 
RBM, é efetivo em relação à precisão e baixo tempo de consumo e utilização de memória. 
 Em 2008, Pianegiani, Mingqing, Boni e Petri, propuseram uma variação da técnica ν
SVM para utilização de sensores sem fio de baixa potência para a classificação de sinais de 
rede,  cujos  resultados  os  experimentos  alcançaram  baixo  consumo  de  energia  e  utilização 
eficiente  dos  recursos  de  hardware  e  mostraram  que  a  precisão  da  execução  proposta  é 
comparável  com  que  as  técnicas  já  conhecidas  na  literatura.  No  mesmo  ano,  Amjady  e 
Daraeepour,  propuseram  a  combinação  das  técnicas  AC+ARIMA,  AC+NN,  PCA+NN, 
MI+NN,  para  previsão  do  preço  em  relação  ao  mercado  de  eletricidade  e  esta  última 
38
apresentou  melhores  resultados  em  relação  ao  custo  computacional  e  precisão.  No  ano 
seguinte, Vieira, Adeodato e Gonçalves, propuseram uma nova aplicação da técnica LVF para 
um problema específico do RoboCup futebol, o “drible”, cujos  resultados dos experimentos 
apresentaram a redução da quantidade de variáveis no ambiente e da quantidade de ações, o 
que resultou numa redução no consumo de memória e um aumento no desempenho, conforme 
a distribuição de frequência relativa de sucesso do agente.
Por fim, Zaman e Karray, propuseram uma validação da técnica IDS, denominada IDS 
Leve, para construção de um sistema de Detecção de intrusão e, com isso, comparada com a 
técnica  SVM,  a  IDS  leve  possui  desempenho  satisfatório,  em  relação  à  precisão  de 
classificação  e  redução  do  tempo  de  treinamento,  para  ser  utilizado  como  elemento 
permanente para segurança da rede e infraestrutura.
4.6 Discussão e Resultados
A  partir  dos  estudos  efetuados,  notouse  que  todos  os  trabalhos,  mesmo  realizando 
análises comparativas de  técnicas de  reconhecimento de padrões, propondo novas variações 
ou combinações destas ou avaliando os resultados dos experimentos a partir das aplicações de 
tais  técnicas,  consideraram,  unanimemente,  as  seguintes  métricas  para  tais  análises 
comparativas: precisão dos classificadores e desempenho computacional.
Adicionalmente, não foram identificadas pesquisas e experimentos que aplicassem tais 
técnicas no contexto de bens de informação. E, apenas um dos artigos estudados, aplicou tais 
técnicas  para  reconhecimento  de  padrões  de  consumo,  porém,  voltado  para  consumo  de 
energia elétrica. Não foram identificados trabalhos que efetuaram experimentos para seleção 
de variáveis e apuração de determinantes de consumo ou preferência humana.
De  forma  geral,  os  estudos  efetuados  em  relação  às  técnicas  de  reconhecimento  de 
padrões não estão concentrados em uma área específica, visto que os artigos estudados foram 
aplicados em áreas e contextos distintos,  sendo estes,  saúde,  segurança domiciliar, detecção 
de  malwares,  segurança  de  rede,  detecção  de  movimentos,  entre  outros,  o  que  reforça  a 
aplicabilidade da mineração de dados nos mais variados segmentos e situaçõesproblema.
Adicionalmente,  a  partir  dos  estudos  efetuados,  é  possível  afirmar  que  devido  à 
abrangência  das  áreas  de  aplicação  identificadas  nos  artigos  estudados,  notouse,  também, 
uma variedade nas técnicas de reconhecimento de padrões utilizadas, sendo que algumas delas 
apresentavam  melhor  desempenho  em  determinados  contextos  e  em  outros  possuíam 
desempenho  inferior.  Com  isso,  não  foi  identificada  uma  concentração  expressiva  na 
39
utilização  de  determinada  técnica  de  reconhecimento  de  padrões  ou  seleção  de  variáveis,  o 
que  se  pode  inferir  que  a  escolha  e  o  desempenho  destas  em  relação  à  precisão  das 
classificações de dados e custo computacional dependem diretamente do contexto em que são 
aplicadas,  devendose  levar  em  consideração  alguns  aspectos  como  seu  objetivo,  recursos 
computacionais disponíveis e bases de dados a serem utilizadas. 
O  interesse  na  área  de  reconhecimento  de  padrões  tem  crescido  muito  nos  últimos 
anos, visto que se trata de uma tarefa de classificação ou categorização de um elevado volume 
de  dados  em  um  contexto  dinâmico  em  que  a  precisão  dos  resultados  e  o  desempenho 
computacional  são  aspectos  fundamentais  para  apoio  a  tomada  de  decisão  e  resolução  de 
problemas complexos. 
Dessa  forma,  diante  do  cenário  em  questão,  este  relatório  apresentou  o  processo  de 
condução de uma revisão sistemática cujo objetivo principal foi identificar métodos e técnicas 
de  reconhecimento  de  padrões  mais  utilizados  pelo  estado  na  arte  e  os  experimentos 
relacionados  à  aplicação  de  técnicas  de  reconhecimento  de  padrões  para  identificação  de 
determinantes de padrões de consumo de bens de informação. 
A  partir  da  revisão  efetuada,  podese  afirmar  que  a  aplicação  das  técnicas  de 
reconhecimento de padrões no contexto de definição de determinantes de padrões de consumo 
de bens de informação não é um tópico de pesquisa maduro e desenvolvido, visto que não foi 
abordado em nenhum dos  trabalhos estudados. Adicionalmente, concluise  também que  tais 
técnicas  podem  ser  aplicadas  nos  mais  diversos  contextos  e  áreas  e  que  a  escolha  e  o 
desempenho das técnicas de reconhecimento de padrões e seleção de variáveis, em relação à 
precisão  das  classificações  de  dados  e  custo  computacional,  dependem  diretamente  destes 
contextos.
5 Cronograma
Este  trabalho  será  composto  pelas  seguintes  etapas  e  executado