Buscar

IvoWolffGersberg

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 158 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 158 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 158 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

MÉTODOS COMPUTACIONAIS PARA A CONSTRUÇÃO DA 
ONTOLOGIA DE DOMÍNIO FRACTAL 
 
Ivo Wolff Gersberg 
Dissertação de Mestrado apresentada ao Programa 
de Pós-graduação em Engenharia Civil, COPPE, da 
Universidade Federal do Rio de Janeiro, como parte 
dos requisitos necessários à obtenção do título de 
Mestre em Engenharia Civil. 
Orientadores: Nelson Francisco Favilla Ebecken 
 Luiz Bevilacqua 
 
 
 
 
Rio de Janeiro 
Agosto de 2011 
 
MÉTODOS COMPUTACIONAIS PARA CONSTRUÇÃO DA 
ONTOLOGIA DE DOMÍNIO FRACTAL 
 
 
Ivo Wolff Gersberg 
 
 
 
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO 
LUIZ COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) 
DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS 
REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM 
CIÊNCIAS EM ENGENHARIA CIVIL. 
 
Examinada por: 
 
 
 
________________________________________________ 
 
Prof. Nelson Francisco Favilla Ebecken, D.Sc. 
 
 
________________________________________________ 
 
Prof. Luiz Bevilacqua, Ph.D. 
 
 
________________________________________________ 
 
Prof. Marta Lima de Queirós Mattoso, D.Sc. 
 
 
________________________________________________ 
 
Prof. Fernanda Araújo Baião, D.Sc. 
 
 
 
 
RIO DE JANEIRO, RJ - BRASIL 
AGOSTO DE 2011
iii 
 
 
 
 
 
 
 
 
 
 
Gersberg, Ivo Wolff 
Métodos computacionais para a construção da 
Ontologia de Domínio Fractal/ Ivo Wolff Gersberg. – Rio 
de Janeiro: UFRJ/COPPE, 2011. 
XIII, 144 p.: il.; 29,7 cm. 
Orientador: Nelson Francisco Favilla Ebecken 
Luiz Bevilacqua 
Dissertação (mestrado) – UFRJ/ COPPE/ Programa 
de Engenharia Civil, 2011. 
 Referências Bibliográficas: p. 130-133. 
1. Ontologias. 2. Mineração de Textos. 3. Fractal. 4. 
Metodologia para Construção de Ontologias de Domínio. 
I. Ebecken, Nelson Francisco Favilla et al. II. 
Universidade Federal do Rio de Janeiro, COPPE, 
Programa de Engenharia Civil. III. Titulo. 
 
 
 
 
 
 
 
 
 
 
 
iv 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
À minha mãe e meu pai, 
Basia e Jayme Gersberg. 
v 
 
AGRADECIMENTOS 
 
Agradeço aos meus orientadores, professores Nelson Ebecken e Luiz Bevilacqua, pelo 
incentivo e paciência. 
 
Ao professor Luiz Bevilacqua por ter me ensinado ser possível retirar um colete de 
uma pessoa sem retirar o paletó. 
 
Aos professores Luiz Landau e Fernando Pellon pelo livre pensar em minhas 
atividades. 
 
Ao professor Jorge de Albuquerque Vieira por semear as primeiras noções sobre a 
Complexidade, germinantes desta dissertação. 
 
Aos companheiros de laboratório, LABSAR-COPPE/UFRJ. 
 
Ao Orlando e Célio, do laboratório de informática do Programa de Engenharia Civil, por 
disponibilizar espaço, equipamento e café. 
 
vi 
 
Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos 
necessários para a obtenção do grau de Mestre em Ciências (M.Sc.) 
 
 
MÉTODOS COMPUTACIONAIS PARA A CONSTRUÇÃO DA 
ONTOLOGIA DE DOMÍNIO FRACTAL 
 
 
 
Ivo Wolff Gersberg 
 
Agosto/2011 
 
 
Orientadores: Nelson Francisco Favilla Ebecken 
Luiz Bevilacqua 
 
 
Programa: Engenharia Civil 
 
 
Este trabalho propõe uma metodologia para construção de uma ontologia de 
domínio baseada em Mineração de Textos, tendo o saber matemático fractal como 
domínio específico. A metodologia proposta leva em consideração uma base textual 
composta de livros essenciais do saber fractal, comparando os resultados obtidos 
oriundos dos conteúdos dos livros com os resultados identificados por um especialista 
e também apenas considerando os índices remissivos dos livros em questão 
(especialista virtual). Um protótipo de uma aplicação Web foi implantado, permitindo 
buscas contextuais por aproximação ontológica na Ontologia de Domínio Fractal 
criada. 
vii 
 
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the 
requirements for the degree of Master of Science (M.Sc.) 
 
 
COMPUTATIONAL METHODS TO BUILD THE 
FRACTAL DOMAIN ONTOLOGY 
 
 
Ivo Wolff Gersberg 
 
 
August/2011 
 
 
Advisors: Nelson Francisco Favilla Ebecken 
Luiz Bevilacqua 
 
 
Department: Civil Engineering 
 
 
This work proposes a methodology for building a domain ontology based on Text 
Mining and the fractal mathematical knowledge as domain specific. The proposed 
methodology takes into account a textual knowledge base composed of fractal 
essential books, comparing the results obtained from the contents of books with the 
results identified by an expert and, also, just considering the indexes of the books in 
question (virtual expert). A prototype of a web application was deployed, allowing 
contextual search by ontological approach in the Fractal Domain Ontology created. 
viii 
 
Sumário 
 
CAPÍTULO 1. DA INTRODUÇÃO .............................................................................. 1 
1.1 dos Objetivos ..................................................................................................................... 4 
1.2 do Recorte do Domínio Matemático, Fractal ..................................................................... 6 
1.3 da Organização da Dissertação ........................................................................................ 7 
CAPÍTULO 2. DAS MOTIVAÇÕES ............................................................................ 8 
CAPÍTULO 3. DA CONCEPÇÃO DE ONTOLOGIAS E AFINS ............................... 14 
3.1 de Ontologias e suas Definições ..................................................................................... 14 
3.1.1 da pergunta, O que é Ontologia? ................................................................................ 14 
3.1.2 dos Tipos de Ontologias .............................................................................................. 18 
3.1.3 das Linguagens Formais de Ontologias ...................................................................... 23 
3.2 das Considerações sobre Mineração de Textos (Text Mining) ....................................... 24 
3.3 de Técnicas de Mineração de Textos Úteis à Construção de Ontologias ...................... 26 
3.3.1 da Importância de Substantivos e a Extração de Termos .......................................... 26 
3.3.2 da Distribuição de Termos .......................................................................................... 30 
3.4 das Metodologias para Construção de Ontologias Relatadas na Literatura................... 31 
3.4.1 de uma Ontologia Aplicada à Química, Methontology ................................................ 37 
3.4.2 de uma Abordagem Colaborativa para e-commerce e Ensino à Distância ................ 40 
3.4.3 de uma Ontologia Aplicada à Engenharia ................................................................... 41 
CAPÍTULO 4. DA CONSTRUÇÃO DA ONTOLOGIA .............................................. 52 
4.1 da Metodologia Empregada nesta Dissertação .............................................................. 54 
4.1.1 da Metodologia Proposta: Fase 1, Especificação ....................................................... 55 
4.1.2 da Metodologia Proposta: Fase 2, Pré-Processamento ............................................. 57 
4.1.3 da Metodologia Proposta: Fase 3, Aquisição .............................................................. 59 
4.1.4 da Metodologia Proposta: Fase 4, Escolha de Termos e Relações ........................... 60 
4.1.5 da Metodologia Proposta: Fase 5, Formalização ........................................................ 61 
4.1.6 da Metodologia Proposta: Fase 6, Validação ............................................................. 61 
4.2 dos Resultados do Processamento................................................................................. 61 
4.2.1 da Extração e Escolha de Termos ..............................................................................61 
ix 
 
4.2.2 da Extração de Possíveis Relações ............................................................................ 77 
4.3 da Construção da Ontologia de Domínio Fractal ............................................................ 81 
4.3.1 da Escolha do Primeiro Nível da Ontologia ................................................................ 82 
4.3.2 da Construção Manual no Protégé-OWL .................................................................... 87 
4.4 da Auto-Similaridade do Corpus ..................................................................................... 91 
CAPÍTULO 5. DA VALIDAÇÃO ............................................................................... 95 
5.1 da Validação pelo Corpus Fractal ................................................................................... 96 
5.2 da Validação pelo Corpus ScienceDirect ...................................................................... 104 
CAPÍTULO 6. DA VISUALIZAÇÃO ....................................................................... 115 
CAPÍTULO 7. DAS CONCLUSÕES ...................................................................... 121 
CAPÍTULO 8. DOS TRABALHOS FUTUROS ....................................................... 126 
REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................... 130 
APÊNDICE I ............................................................................................................. 134 
APÊNDICE II ............................................................................................................ 138 
APÊNDICE III ........................................................................................................... 144 
 
 
 
x 
 
Lista de Figuras 
 
Figura 1 – Ontologia e sua Diversidade de Aplicações ................................................. 3 
Figura 2 – Livros Adotados para Extração do Paradigma Fractal ................................. 6 
Figura 3 - Visão de Polanyi acerca do Conhecimento adaptado de (Grant, 2007) ...... 13 
Figura 4 – Primeira Ontologia da História: Porfírio sobre as Categorias de Aristóteles 
(séc.III) extraído de (Smith, 2008) ............................................................................... 19 
Figura 5 – Ontologia SNAP ......................................................................................... 22 
Figura 6 – Relações Primitivas de um Recorte de BFO .............................................. 22 
Figura 7 – Espectro Ontológico de Leo Obrst ............................................................. 24 
Figura 8 – Distribuição de termos segundo a Lei de Zipf. Exemplo de 3 livros: A Bíblia, 
Alice no País das Maravilhas e Tale of Two Cities. (extraído de (Konchady, 2006) ) . 31 
Figura 10 – Ciclo de Vida proposto pela Metodologia Methontology extraído de (Lopez 
et al., 1999) ................................................................................................................. 38 
Figura 11 – Fase de Conceituação da Methontology .................................................. 39 
Figura 12 – Estágios da Metodologia eCognos para Construção de Ontologias de 
Domínio extraído de (Rezgui, 2007) .......................................................................... 44 
Figura 13 – Esquema Básico de EO extraído de (Li et al., 2009) ................................ 47 
Figura 14 – Passos da Metodologia EO, extraído de (Li et al., 2009) .......................... 48 
Figura 16 – Visão Geral das Etapas Implantadas ....................................................... 52 
Figura 17 – Metodologia Proposta e Implantada ......................................................... 54 
Figura 18 – Exemplos de uma Página dos Livros Adotados (esquerda) e de uma 
Página dos Índices dos Livros Adotados (direita) ........................................................ 58 
Figura 19 – Distribuição de Unigramas Extraídos pelo Critério (rank>0,95) (cenário TM)
 ................................................................................................................................... 62 
Figura 20 – Distribuição de Termos Unigramas, Agrupados pelas Ferramentas ......... 62 
Figura 21 - Distribuição de Bigramas Extraídos por cada Ferramenta (cenário TM) ... 63 
Figura 22 – Distribuição de Termos Bigramas, Agrupados pelas Ferramentas (cenário 
TM) ............................................................................................................................. 63 
Figura 25 – Distribuição de Bigramas Extraídos por cada Ferramenta (cenário EspVirt)
 ................................................................................................................................... 65 
Figura 26 – Distribuição de Termos Bigramas, Agrupados pelas Ferramentas (cenário 
EspVirt) ....................................................................................................................... 65 
Figura 27 – Análise Quantitativa da Extração de Unigramas e Bigramas pelas 
ferramentas adotadas ................................................................................................. 66 
Figura 28 - Conjunto Interseção de Unigramas e Bigramas, Agrupado por Medidas em 
Comum (cenário TM) .................................................................................................. 68 
xi 
 
Figura 29 - Conjunto Interseção de Unigramas e Bigramas, Agrupado por Medidas em 
Comum (cenário EspVirt) ............................................................................................ 68 
Figura 30 – Termos em Comum com Cenário ESP .................................................... 76 
Figura 31- Relações Escolhidas pelo Especialista: T2 (esquerda) e PA (direita) ........ 79 
Figura 32 – Relações Escolhidas pelo Especialista: PA modificado ............................ 80 
Figura 33 – Relações Mais Frequentes....................................................................... 81 
Figura 34 – Link Analysis Especialista para Geração do Nível 1 da Ontologia ............ 84 
Figura 35 – Link Analysis TMEspVirtual para Geração do Nível 1 da Ontologia ......... 84 
Figura 36 - Link Analysis ESP_TMEspVirtual para Geração do Nível 1 da Ontologia . 85 
Figura 37 - Link Analysis EspVirt (exclusivamente Especial.Virtual) para Geração do 
Nível 1 da Ontologia ................................................................................................... 85 
Figura 38 – Nível 1 da Ontologia de Domínio Fractal .................................................. 87 
Figura 39 – Exemplo de Axiomas Criados .................................................................. 88 
Figura 43 – Validação Mandelbrot, conjunto Especialista sobre Corpus FRACTAL .... 98 
Figura 44 - Validação Mandelbrot, conjunto TMEspVirtual sobre Corpus FRACTAL .. 99 
Figura 45 - Validação Mandelbrot, conjunto ESP_TMEspVirtual sobre Corpus 
FRACTAL ................................................................................................................. 100 
Figura 46 - Validação Mandelbrot, conjunto EspVirt sobre Corpus FRACTAL .......... 101 
Figura 47 – Região de Mais Alta Concentração do Conjunto TMEsp_Virtual sobre o 
Corpus FRACTAL ..................................................................................................... 102 
Figura 48 – Correlações Mais Fortes, Base ScienceDirect (Taxonomia Própria) ...... 105 
Figura 49 - Grafo dos Nós Mais Relevantes de Cada Conjunto Selecionado aplicado 
sobre o Corpus ScienceDirect (medida suporte >52) ................................................ 107 
Figura 50 – Conjunto Especialista aplicada à base ScienceDirect ............................ 108 
Figura 51 - Conjunto TMEspVirtual aplicada à base ScienceDirect........................... 109 
Figura 52 - Conjunto EspVirt aplicada à base ScienceDirect .................................... 109 
Figura 53 – Validação Mandelbrot, TMEsp_Virtual sobre CorpusScienceDirect ...... 110 
Figura 54 - Taxonomia dos Conceitos da Ontologia de Domínio Fractal aplicada à 
Bíblia Sagrada .......................................................................................................... 111 
Figura 55 – Medida Suporte sobre Caos de James Gleick........................................ 112 
Figura 56 – Medida Tensão para Nível 1 sobre Caos de James Gleick .................... 112 
Figura 57 – Grafo Completo de Conjunto ESP_TMEspVirtual sobre Caos de James 
Gleick ....................................................................................................................... 113 
Figura 58 – Protótipo Web de Buscas Orientadas por Ontologias............................ 115 
Figura 60 - Consulta por Aproximação Ontológica .................................................... 118 
Figura 61 – Visão Quantitativa, em Nuvem, das Relações Taxonômicas.................. 120 
xii 
 
Figura 62 – Visão Gráfica do Desempenho das Ferramentas em Relação ao conjunto 
Especialista .............................................................................................................. 125 
Figura 63 - Conceitos de Outros Domínios ............................................................... 127 
 
xiii 
 
Lista de Tabelas 
 
Tabela 1 – Relação Tf-IDF e Ocorrência de um Termo em um Corpus...................... 30 
Tabela 2 – Métodos Associados à Aprendizado de Ontologias baseado em (Gomez-
Perez et al., 2005) ...................................................................................................... 34 
Tabela 3 – métodos da tabela anterior e suas respectivas técnica de aprendizado de 
ontologias baseado em (Gomez-Perez et al., 2005) ................................................... 35 
Tabela 4 – Representações Externas Independentes de Formalismo, metodologia 
Methontology extraído de (Lopez et al., 1999) ........................................................... 40 
Tabela 5 – Abordagem Colaborativa para Construção de Uma Ontologia baseado em 
(Holsapple et al., 2002) ............................................................................................... 41 
Tabela 6 – Cenários para Aquisição de Conceitos ...................................................... 56 
Tabela 7 – Comparação dos Termos Extraídos dos Conteúdos dos Livros x EspVirt . 71 
Tabela 8 – Número de Termos para Escolhas (cenário ESP) ..................................... 74 
Tabela 9 – Recorte dos Resultados da Ferramenta T2 para Extração de Relações ... 79 
Tabela 10 – Algumas Relações Não-Taxonômicas da Ontologia de Domínio Fractal . 89 
Tabela 12 – Dimensão dos Livros Adotados e do Corpus ........................................... 92 
Tabela 13 – Relevância de Algumas Buscas na Ontologia ....................................... 118 
Tabela 14 – Considerações Finais sobre o Uso de Índices dos Livros ..................... 122 
Tabela 15 – Desempenho das Ferramentas em Relação ao conjunto Especialista .. 124 
 
 
1 
 
CAPÍTULO 1. da Introdução 
Como alargar o conhecimento? Alargar o conhecimento implica sistematizá-lo de 
modo a juntar peças de um quebra-cabeça cognitivo já existente e revelar pontos de 
contatos inspiradores ao novo. Somente juntando o que existe, de maneira coerente, é 
possível diminuir a distância entre saberes díspares e proporcionar uma verdadeira 
abordagem interdisciplinar e, ainda, mesmo dentro de um mesmo saber, alcançar um 
enriquecimento disciplinar sob diferentes visões e perspectivas. 
 
A nossa questão inicial e atemporal de investigação, sucede a questão de Kant, 
Como é possível o conhecimento? Na Analítica dos Conceitos, da Crítica da Razão 
Pura, Kant coloca que “o conhecimento de todo entendimento, pelo menos do 
entendimento humano, é um conhecimento por conceitos, que não é intuitivo, mas 
discursivo. Todas as intuições, enquanto sensíveis, assentam em afecções e os 
conceitos, por sua vez, em funções. Entendendo por função a unidade de ação que 
consiste em ordenar diversas representações sob uma representação comum...” 
(Kant, 1781). Deslocando do imenso contexto filosófico que trata de questões acerca 
da representação comum kantiana, esbarramos no sentido computacional atual que 
pretende representar o conhecimento em uma representação comum, as ontologias. 
 
Para os sistemas de Inteligência Artificial, o que existe é o que pode ser 
representado. A ontologia computacional é um modo de modelar formalmente a 
estrutura de um sistema, ou seja, entidades relevantes e relações emergem da 
observação, se tornando úteis aos nossos propósitos. O engenheiro de ontologias 
analisa as entidades mais relevantes (entes mais gerais e abstratos que podem ser 
subdivididos em objetos, processos, ideias, etc.) e os organiza em conceitos1 e 
relações. O esqueleto de uma ontologia consiste em uma hierarquia de conceitos 
generalizados e especializados (Guarino et al., 2009) de maneira similar a uma 
taxonomia. 
 
A semelhança com o passado filosófico persiste, temos ainda em Kant: “se 
abstrairmos de todo conteúdo de um juízo em geral e atendermos à simples forma do 
entendimento, encontramos que nele a função do pensamento pode reduzir-se a 
 
1 Como bem alerta Guarino, o uso do termo “conceito” é bastante problemático, pois por vezes 
em ciência da computação é tratado como “propriedades”. Conceitos correspondem melhor a 
“universais”, ou seja, um universal que possa ter instâncias. 
2 
 
quatro rubricas”, acomodadas em uma tábua2. Continua Kant, “diversas 
representações são reduzidas, analiticamente, a um conceito. (...) por este motivo se 
dá a estas representações3 o nome de conceitos puros do entendimento, que se 
referem a priori aos objetos (...) Deste modo, originam-se tantos conceitos puros do 
entendimento, referidos a priori a objetos da intuição em geral, quanto as funções 
lógicas em todos os juízos possíveis que há na tábua anterior... Chamaremos a estes 
conceitos categorias4, como Aristóteles, já que o nosso propósito é de início, idêntico 
ao seu, embora na execução dele se afaste consideravelmente. (...) que esta tábua 
(das categorias) é de extraordinário préstimo e até indispensável na parte teórica da 
filosofia, para elaborar integralmente o plano do todo que forma uma ciência, na 
medida em que assenta sobre conceitos a priori, e para a dividir sistematicamente, 
segundo princípios determinados, é o que obviamente se depreende do fato dessa 
tábua conter a lista completa dos conceitos elementares do entendimento e até 
mesmo a forma de um sistema desses conceitos no entendimento humano, indicando, 
por conseguinte, todos os momentos de uma projetada ciência especulativa e, 
inclusivamente, a sua ordenação...” (Kant, 1781). 
 
Embora, neste último parágrafo Kant esteja investigando os conceitos puros 
(onde puro é um termo técnico em Kant), independentes da experiência e condições 
de possibilidade desta, vemos sua intenção em criar uma hierarquia de conceitos que 
permitissem a sistematização do conhecimento. Das categorias mais abstratas e 
necessárias, propiciando todos os momentos de ciências conseqüentes, ou seja, a 
construção de uma conceituação que permita estruturar outros domínios específicos. 
Ora, esta é exatamente a proposta atual sobre ontologias. 
 
Diversos são os usos de ontologias, no sentido atual5. Uns, ao invés de capturar 
plenamente o conhecimento de um determinado domínio, as utilizam para criar um 
vocabulário controlado e consensual. Tal vocabulário seria usado como conhecimento 
 
2 A tábua consiste de: Quantidade (universais, particulares, singulares), Qualidade (afirmativos, 
negativos, infinitos), Relação (categóricos, hipotéticos, disjuntivos) e Modalidade 
(problemáticos, assertóricos, apodíticos). 
3 Por não ser o objetivo desta dissertação, pulou-se toda uma imensa questão acerca doconteúdo transcendental e suas sínteses na formação dos conceitos puros do entendimento. 
4 Uma extensão da tábua anterior, Quantidade (unidade, pluralidade, totalidade), Qualidade 
(realidade, negação, limitação), Relação (inerência e subsistência, causalidade e dependência, 
ação recíproca) e Modalidade (possibilidade e impossibilidade, existência e não-existência, 
necessidade e contingência). 
5 Alguns consideram a ontologia de cunho filosófico como Ontologia, palavra iniciada com letra 
maiúscula, enquanto a ontologia no sentido atual seria iniciada com minúscula (Guarino, et al., 
2009). 
3 
 
compartilhado de modo formal, através de tecnologias voltadas para inferências, e 
informal, explicitando alguns sentidos em textos (Staab et al., 2009). 
 
Ainda considerando este vocabulário, sofisticados sistemas semânticos de 
indexação de banco de dados são criados, estruturando repositórios de informação 
que incluem documentos textuais não estruturados, culminando no aperfeiçoamento 
de sistemas de recuperação da informação (Uschold et al., 2004). Outros a utilizam 
para integração de base de dados, apoiados em uma abordagem semântica. Outros 
em portais semânticos, como um sistema de recomendações baseado em ontologias 
(Staab et al., 2009). Ainda outros, apenas como um modelo de informação, provendo 
uma estrutura organizada de um determinado interesse, como uma teia de dados, 
descrevendo como diferentes partes da informação se relacionam umas com as outras 
(ex.: experiências biológicas laboratoriais e descrições de amostras). 
 
Em um sentido mais clássico, como Representação do Conhecimento, onde a 
ontologia é a especificação de conceitos e relacionamentos em um domínio de 
discurso, acrescido de declarações das propriedades dos relacionamentos e, em 
alguns casos, acrescidos de um conjunto de axiomas inferindo conceitos e relações. 
Assim, o conhecimento é tratado como um modelo formalizado, de maneira que possa 
ser entendido por humanos e por sistemas baseados em máquinas (Shah et al., 
2009). 
 
O universo de aplicação de uma ontologia cresce em diversidade, como pode 
ser visto na Figura 1. 
 
Figura 1 – Ontologia e sua Diversidade de Aplicações 
baseado em (Stevens et al., 2009) 
 
4 
 
 Contudo, nosso interesse maior, pormenorizado na seção de motivações, é 
encontrar uma via de convergência entre Filosofia e Ciências da Computação, de 
modo a investigar congruências de saberes, ou seja, o quanto imbricado os saberes 
podem ser, através de Ontologias como Representação do Conhecimento. Uma vez 
que este espectro é bastante amplo e ambicioso, nos restringiremos a um passo inicial 
desta ampla investigação. Constatamos que sem uma representação formal do 
conhecimento, tal investigação não seria possível, logo faz-se necessário a existência 
de ontologias com este viés6. Uma vez que não as temos, o passo inicial e meta desta 
dissertação será a investigação de metodologias de construção de uma ontologia 
acerca de um domínio específico do saber e, por conseguinte, construção desta. 
 
1.1 dos Objetivos 
Nossa preocupação se resume em uma vontade de tratar o conhecimento, e de 
alguma maneira alargá-lo. A representação do conhecimento se estende além da 
produção do próprio conhecimento e alargá-lo significa identificar o comportamento de 
ontologias em uma abordagem epistemológica. Como dito anteriormente, não as 
temos (as ontologias) dentro deste prisma, portanto, o objetivo desta dissertação é 
construir uma ontologia de domínio, de maneira genérica, e que reflita um 
conhecimento de um especialista no recorte de saber adotado, com o auxílio de 
técnicas de Mineração de Textos. Assim sendo, além de preparar o terreno 
epistemológico, neófitos poderão ter um primeiro contato de fácil compreensão sobre o 
saber fractal. Neste sentido, serão investigadas algumas metodologias existentes na 
literatura técnica e, por conseguinte, proporemos uma metodologia de construção de 
uma ontologia. Ao final apresentaremos um protótipo formalizado da ontologia de 
domínio criada. 
 
A presença de um especialista, amplamente ressaltada na literatura, é 
considerada de importância vital, uma vez que o engenheiro de ontologias na imensa 
maioria das ocasiões não detém o conhecimento do domínio específico adotado. Por 
variados motivos, o tempo disponível pelos especialistas pode ser escasso, portanto a 
proposta nesta dissertação é criar um arcabouço ontológico preliminar, durante a 
metodologia, que minimize o número de entrevistas conseqüentes. A figura do 
“especialista virtual”, como veremos mais adiante, foi criada para conduzir este 
arcabouço preliminar. 
 
 
6 Propósito epistemológico. 
5 
 
O viés adotado para a construção de uma ontologia, com o nosso propósito, é 
bastante controverso. Ao dizer que a ontologia a ser construída refletirá a visão de um 
especialista, imputamos uma tendência, uma não neutralidade. 
 
Todo conhecimento deve necessariamente ser universal, porém uma ontologia 
que representa um conhecimento é o resultado de um processo de entendimento 
acerca de algo (o modelo conceitual), representando um ponto de vista (a 
representação do conhecimento) de quem toma parte do processo, podendo variar 
dependendo dos contextos. Os conceitos da ontologia são oriundos de conhecimento 
e ideias teóricas, de experiências de determinados cientistas ou da prática de 
empregados, no caso de conhecimento corporativo (Cristani et al., 2004), logo 
carregando uma alta dose de subjetividade. 
 
Muitos defendem que esta carga subjetiva é danosa, impondo que toda 
ontologia deveria ser afastada de qualquer epistemologia. Uma ontologia de um saber 
específico deveria ser uma estrutura linguística simplesmente canônica, ou seja, uma 
empreitada estritamente pragmática, refletindo apenas os resultados constatados em 
laboratório, logo afastando as representações cognitivas exclusivas das cabeças dos 
cientistas (Smith, 2008). Estes, ainda, vão de encontro a um realismo 
representacional, defendendo que ao modelo conceitual deve-se tomar cuidado 
quanto ao seu teor abstrato, rejeitando as representações dadas sobre as coisas. 
Assim sendo, modelo deve ser considerado como uma representação que permita um 
“certo” grau de simulação e aproximação, julgada adequada para o propósito de uma 
ontologia específica (Grenon et al., 2003). 
 
 Ora, desejamos criar uma ontologia que de fato seja objetiva, porém uma 
objetividade de uma subjetividade na composição de uma representação do 
conhecimento, ou seja, reflita a cabeça cognitiva de um especialista pela sua produção 
textual, sendo assim uma investigação a posteriori. Assim, podemos identificar em 
uma análise epistemológica, o quanto este especialista/cientista se afasta ou se 
aproxima dos demais de sua área7 científica, evidenciando o paradigma ou revelando 
algo novo, um outlier. Andamos nesta direção por concordarmos com o 
Perspectivismo, onde o mundo, sendo complexo, necessita de diferentes visões que 
tragam um caráter evolutivo, alterável e mutante ao conhecimento. Justamente o 
Realismo e a sua realidade é que irão garantir a integração destes pontos de vista. 
 
7 Até mesmo de outros domínios, evidenciando a multidisciplinaridade e a interdisciplinaridade. 
6 
 
1.2 do Recorte do Domínio Matemático, Fractal 
A ontologia criada teve como domínio específico, um recorte da matemática: 
Fractal. O conhecimento específico e especialista foi conduzido pelo professor Luiz 
Bevilacqua, professor titular e emérito da COPPE/Universidade Federal do Rio de 
Janeiro. 
 
A construção da Ontologia de Domínio Fractal, pressupondo conter os conceitos 
que representassem o saber fractal de maneira paradigmática, foi construída a partir 
da Mineração de Textos de um conjunto de 9 (nove) livros textos, criteriosamente 
escolhidos peloprofessor especialista. Tais livros emblemáticos na área de fractal, 
Figura 2, encontravam-se disponíveis na língua inglesa, daí o motivo da ontologia ser 
criada neste idioma. 
 
Os livros adotados foram classificados a partir de suas especificidades, ou seja, 
livros estritamente técnicos, livros voltados para aplicações em outros domínios ou de 
natureza mista. Dentre os estritamente técnicos, temos os autores: Kenneth Falconer, 
Jean-François Gouyet e Heinz-Otto Peitgen & Hartmut Jürgens & Dietmar Saupe; 
entre os voltados para aplicações, James B. Bassingthwaite & Larry S. Liebovitch & 
Bruce J. West, Donald L. Turcotte e Edward N. Lorenz e, finalmente, os de 
abrangência mista, Benoit B. Mandelbrot, Jens Feder e Manfred Schroeder. 
 
 
Figura 2 – Livros Adotados para Extração do Paradigma Fractal 
 
7 
 
1.3 da Organização da Dissertação 
Estruturada em 8 (oito) capítulos, esta dissertação discorre no capítulo 2 as 
motivações que originaram as ideias inspiradoras na busca de uma metodologia que 
permitisse investigar o entrelaçamento dos saberes, por uma perspectiva mista entre 
Filosofia e Ciências da Computação. Descritas em 6 (seis) páginas, tal capítulo possui 
um foco na Filosofia da Ciência e pode parecer a princípio deslocado do todo, mas de 
fato serviu de sêmen para este trabalho e, caso queiram, pode ser deixado de lado 
sem prejuízo dos demais capítulos. 
 
No capítulo 3 são relatadas as definições de ontologia e as metodologias 
investigadas na literatura para a construção de uma ontologia. São apresentadas as 
técnicas de Mineração de Textos, principalmente Tf-IDF e significância, que foram 
utilizadas para a construção da Ontologia de Domínio Fractal. O capítulo 4 apresenta 
os resultados obtidos com as técnicas de Mineração de Textos, para obtenção dos 
conceitos e relações que representam o paradigma do recorte matemático Fractal, 
bem como os passos da construção da ontologia. O capítulo 5 relata a utilização da 
técnica de Link Analysis para validar os conceitos obtidos, em uma abordagem 
contextual. 
 
No capítulo 6, temos o relato de um protótipo implementado, originando uma 
ferramenta Web para buscas contextuais por aproximações ontológicas baseadas na 
Ontologia de Domínio Fractal. Esta perspectiva contextual permite uma mudança na 
consulta de conceitos e documentos relevantes, permitindo um deslocamento no 
objetivo central de pesquisas, ou seja, de conceitos ou substantivos expressados 
individualmente para uma perspectiva de cenário ou fundo epistemológico do saber 
em questão. Analisando conceitos relacionados, o que já imbrica um conhecimento na 
nomeação da relação, permite a recuperação de documentos do Corpus devidamente 
classificados pela técnica de Vector Space Model (VSM). 
 
O capítulo 7 foi destinado às conclusões, enquanto o último capítulo discorre 
sobre os possíveis desdobramentos e ideias decorrentes desta dissertação. 
 
8 
 
CAPÍTULO 2. das Motivações 
A motivação condutora para a realização desta dissertação se condensa na 
questão: Como é possível alargar o conhecimento? Esta questão foi gerada em 
discussões no contexto da Filosofia da Ciência, acerca do conceito de paradigma e de 
influências da Sociologia da Ciência. 
 
A Sociologia da Ciência considera que a realidade na ciência, não passa de uma 
construção coletiva. Em meados de 1929, Karl Mannheim, sociólogo da ciência, 
preconizava que o conhecimento se forma no contexto de situações históricas e 
sociais, afirmando que “...ninguém nega a possibilidade da pesquisa empírica e 
ninguém sustenta que os fatos não existem. Entretanto a questão da natureza dos 
fatos constitui em si mesma um problema a ser considerado. Eles existem para a 
mente sempre dentro de um contexto intelectual e social. A particularidade de 
poderem ser compreendidos e formulados já implica a existência de um aparelho 
conceitual” (Rosa, 2006). 
 
Ora, a área de Mineração de Dados e Textos, ávidas por padrões em coleção de 
dados, encontram nesta afirmação os elementos essenciais para descoberta de 
conhecimento, ou seja, categorias ou classes implicadas por um aparelho conceitual 
ao lidar com uma massa de dados oriunda de uma construção coletiva. Daí surge uma 
primeira inspiração. Como nossa abordagem se concentra em Mineração de Textos, 
será possível explicitar e alargar o conhecimento a partir de livros destinados a revelar 
conhecimentos científicos? 
 
O conteúdo das teorias científicas, segundo Mannheim, é influenciado por 
alguns pontos epistemológicos, a saber: 
 
 o pensamento se realiza por categorias historicamente constituídas e a 
linguagem é a forma pela qual se expressa; 
 a atividade científica é prescrita por uma epistemologia, explícita ou implícita, e 
esta se liga a uma ontologia8 e uma metafísica; 
 a visão de mundo moderna é fruto de uma ontologia substancialista, 
considerada adequada para as ciências naturais; 
 as ciências históricas e humanas necessitam de uma outra base que expresse 
o caráter processual em lugar do substancialismo; 
 
8 Ontologia aqui não é tratada no sentido da Ciência da Computação atual. 
9 
 
 uma nova epistemologia mais ampla e genérica é necessária, tal que inclua as 
ciências naturais como caso limite. 
 
Nestes pontos percebemos persistir uma dicotomia entre ciências naturais e 
sociais, principalmente no aparelho conceitual. Contudo, ainda acreditamos que uma 
investigação através de ontologias possa minimizar a distância entre estas, porém 
nesta dissertação trataremos apenas de um único recorte científico. 
 
Mannheim, juntamente com o químico e filósofo Michael Polanyi e, ainda, um 
grupo denominado “the Moot” (ao qual fazia parte T. S. Eliot), cunharam o termo 
clérigo do conhecimento. Tal termo era designado a uma elite, intelligentsia, cujos 
membros se reconhecem devido a um certo treinamento (Mullins et al.). A formação 
acadêmica do cientista pode induzi-lo a ver o mundo de uma certa forma, nos moldes 
de um paradigma (sentido atribuído por Thomas Kuhn9). O reconhecimento pode ser 
dado a uns e negado a outros, não somente pela competência, mas também pela 
adaptação ao paradigma. Aqui reside o ponto ao qual acreditamos ser possível revelar 
através de uma investigação epistemológica orientada por ontologias: o quanto muitos 
seguem os mesmos conceitos. 
 
Michael Polanyi, também, pretender alertar sobre um caminho único pelos 
cientistas, ao dizer que “não podemos indagar por uma mente comum ou uma ação 
comum por parte dos membros do clérigo. Eles possuem uma função comum, (...) eles 
têm ao menos um interesse comum – o interesse de sobrevivência do clérigo, (...) mas 
eles não possuem uma concordância de como promover isto. Concordância e ação 
comum somente serão possíveis por um grupo específico do clérigo. Quando o clérigo 
forma um grupo onde a concordância é possível, isto se dá devido a afinidades que 
diferenciam estes de outros clérigos. (...) a primeira função do clérigo é manter a 
herança mental viva e conduzi-la a seus sucessores, (...) o crescimento do 
conhecimento continua somente porque existem nos dias de hoje cleros especialistas, 
como no mundo da ciência” (Mullins et al.). 
 
Tendo em mente que em cada domínio específico dos saberes, existem 
pequenos grupos de especialistas, Polanyi aponta que a função destes reside na 
supervisão do aprendizado dos novatos, os posicionando profissionalmente, 
sancionando ou proibindo seus produtos profissionais. Com uma posição bastante 
 
9 Thomas Kuhn, nos dias de hoje, é quase sinônimo de paradigma, contudo tal conceito já tinha 
sido concebido por Polanyi. 
10 
 
crítica acerca de uma comunidade dedicada e oprimida por um conjunto de 
pensamentos majoritários, Polanyi implora pelo exercício crítico e racional para que 
ocorram mudanças, um choquede autoridade para que novas inspirações superem a 
tensão criada pela possibilidade do novo. 
 
Como resolver o conflito que permita mudanças? Continuando com as não muito 
animadoras palavras de Polanyi: “Não existe alguém que decida, é necessário para 
cada geração, em último caso, o uso da força. Durante este processo, excêntricos e 
imprudentes são colocados em cheque e gênios não reconhecidos correm o risco da 
fome. Assim é que cada geração é largada por sua própria conta – escutar 
atentamente a inspiração original de nossa civilização, sua própria consciência e 
Deus” (Mullins et al.). 
 
Por outro lado, Thomas Kuhn atribui a possibilidade de tais mudanças somente 
através do que ele cunhou como mudança de paradigmas10. Kuhn define paradigma 
como (Rosa, 2006): 
 
 um resultado científico fundamental que inclui ao mesmo tempo uma teoria e 
algumas aplicações, os resultados das experiências e da observação... Um 
resultado cujo completar está em aberto e que deixa toda espécie de 
investigação ainda por ser feita... Um resultado aceito no sentido de que é 
recebido por um grupo cujos membros deixam de tentar opor-lhe uma teoria 
rival ou de criar alternativas; 
 exceto durante os períodos ocasionais extraordinários, os praticantes de uma 
especialidade científica madura aderem profundamente à determinada maneira 
de olhar e investigar a natureza baseada num paradigma. O paradigma diz-
lhes quais tipos de entidades que o universo está povoado e qual a maneira 
como essa população se comporta; além disso informa quais questões sobre a 
natureza podem legitimamente ser postas e quais técnicas que podem ser 
devidamente aplicadas na busca de respostas; 
 o esforço continuado para ajustar os paradigmas à natureza produz um 
conhecimento e uma compreensão de pormenores esotéricos que não 
poderiam ter sido alcançados de nenhuma outra maneira; 
 
10 O livro Conhecimento Pessoal, escrito em 1958 por Polanyi, influenciou a Estrutura das 
Revoluções Científicas de Thomas Kuhn. Segundo Moleski, a descrição de mudanças na 
estrutura interpretativa de Polanyi se assemelha fortemente com a descrição de mudança de 
paradigmas de Kuhn (Moleski). 
11 
 
 o praticante de uma ciência madura sabe com previsão razoável a que tipo de 
resultado pode chegar com a sua investigação, o que é uma condição 
favorável para detectar um problema de investigação que saia fora do 
esperado; 
 quando falham repetidas vezes e cada vez mais, então um setor da 
comunidade científica depara com o que chamei de crise. Ao reconhecer que 
algo está fundalmentalmente errado na teoria com que trabalham, os cientistas 
tentarão articulações mais fundamentais da teoria do que as que eram 
admitidas antes. É típico, nos tempos de crise, encontrar numerosas versões 
diferentes da teoria-paradigma; 
 unicamente em situações desse gênero uma inovação fundamental na teoria 
científica não só é inventada, mas aceita. 
 
Polanyi e Kuhn duelaram pelo direito de se denominarem “pai” do conceito de 
paradigma. Para Polanyi, “... a estabilidade do sistema naturalístico, ao qual aceitamos 
atualmente, se assenta na mesma estrutura lógica. Qualquer contradição entre uma 
noção científica particular e os fatos da experiência será explicada por outras noções 
científicas; existe uma reserva de possíveis hipóteses científicas prontas para explicar 
qualquer evento concebível. (...) Neste momento, somente desejo fornecer ilustrações 
para mostrar como, no interior da própria ciência, a estabilidade das teorias contra a 
experiência é mantida por uma reserva epicíclica que omite concepções alternativas 
enquanto germe...”. Polanyi continua dizendo que contradições nas concepções 
científicas correntes são normalmente denominadas anomalias e, estas, são as 
suposições mais a mão disponível pela reserva epicíclica de qualquer teoria. Polanyi 
ilustra como uma série de observações são consideradas cientificamente importantes 
em uma determinada época e em poucos anos passam a ser completamente 
desacreditadas, sem ao menos serem reprovadas ou realmente testadas, 
simplesmente porque a estrutura conceitual da ciência se alterou, tornando os fatos 
aparentemente desacreditados. Concluindo nesta seção do livro, Polanyi afirma que 
os “... filósofos tratam a coerência como critério de verdade, porém a coerência nada 
mais é do que um critério de estabilidade. (...) a atribuição da verdade em qualquer 
alternativa particular estável é um ato confidente, o qual não pode ser analisado em 
termos não compromissados” (Polanyi, 1958). 
 
Identificamos dois pontos neste parágrafo que futuramente servirão de 
investigação em trabalhos futuros, neste âmbito da Mineração de Textos, que são: 
12 
 
germe e anomalias. O quanto ambos podem ser o mesmo? Não seriam desvios para 
o novo, alargando o conhecimento? Deixaremos isto para outra ocasião. 
 
Evidencia-se, assim, a existência de grupos sociais detentores de determinados 
tipos de conhecimentos. Polanyi e Kuhn possuem fortes influências no debate acerca 
da cumplicidade e dos métodos utilizados pela ciência enquanto comunidades sociais. 
Na concepção de Polanyi há um conhecimento tácito ditado pela comunidade 
científica de cada área do conhecimento, a qual cada cientista desta área busca se 
adaptar para não ser excluído. A análise de Polanyi mostra que cientistas são 
influenciáveis, submetendo-se ao controle por sua comunidade de pares (Rosa, 2006). 
Influências, estas, que nos levam a questionar a possibilidade de identificar claramente 
tais pontos nos conteúdos escritos de determinados saberes. 
 
Nossa intenção é investigar uma metodologia, através do uso de ontologias, 
como representação do conhecimento, para explicitar o quão um determinado grupo 
caminha na mesma direção e outros se afastam. É possível identificarmos na 
produção textual tal uniformidade imposta? Por outro lado, é possível que o 
conhecimento seja comunicado diminuindo a distância para com os especialistas? 
 
De maneira objetiva, almejamos construir ontologias como representação do 
conhecimento, com o propósito de responder as duas questões do último parágrafo. A 
primeira, podendo abranger diferentes domínios específicos do saber ou dentro do 
mesmo domínio, identificando a distância entre os saberes e até mesmo entre 
cientistas, ficará para trabalhos futuros, a segunda, tentará nesta dissertação 
representar um conhecimento que permita ser comunicado e consultado por 
especialistas, generalistas e, principalmente, leigos. 
 
Por fim, uma última observação sobre comunicar algo e a linguagem. Ao 
examinar a natureza do conhecimento e a natureza da pesquisa científica, Polanyi se 
concentra sobre como conhecer algo poderia ser comunicado. A linguagem teria um 
papel vital ao compartilhar o conhecimento e esta é uma das principais características 
da ontologia pragmática atual. À natureza humana, para Polanyi, existiria um 
conhecimento genuíno e de difícil transferência, o conhecimento tácito. Todo 
conhecimento tem uma componente tácita que coopera com uma componente 
explícita, como se fosse uma interação entre o pessoal e o formal. A visão de 
conhecimento de Polanyi se daria como um contínuo entre o tácito e o explícito. Como 
todo conhecimento inclui um grau do componente tácito, através desta gradação 
13 
 
altamente imbricada na linguagem, um especialista poderia comunicar algo acerca do 
conhecimento de sua área. Tal consciência tácita estaria de alguma maneira 
conectada com a realidade objetiva. 
 
O pensamento de Polanyi sob a ótica de Grant (Grant, 2007), pode ser resumido 
diagramaticamente conforme a Figura 3. 
 
 
 
Figura 3 - Visão de Polanyi acerca do Conhecimento 
adaptado de (Grant, 2007) 
 
Enfim, comunicar um conhecimento, explicitando o tácito, não deve se restringir 
às ocasiões entre mestre e discípulo. O conhecimento tácito,mais próximo do pessoal, 
deixando de ser inefável, somente partindo de um ato não consensual, ou seja, 
somente a partir da perspectiva da cabeça de um cientista. 
Assim, a nossa principal motivação ganha forma ao aproximar distintas cabeças, 
representadas por seus conhecimentos a posteriori textuais e sistematizados por 
ontologias, possibilitando o alargar do conhecimento. 
14 
 
CAPÍTULO 3. da Concepção de Ontologias e Afins 
Ontologia tornou-se um conceito explorado por diversas áreas dos saberes, até 
mesmo por disciplinas tão díspares para muitos, como Filosofia e Ciência da 
Computação. Porém esperamos que ao final da dissertação, encontremos uma porta 
aberta para a reconciliação entre Filosofia e Ciência. 
3.1 de Ontologias e suas Definições 
O termo Ontologia tem sua origem em intenções filosóficas que remetem à 
Grécia Antiga, principalmente relacionada ao filósofo grego Aristóteles. Por outro lado, 
a partir da Inteligência Artificial, a atual arena que envolve as áreas de Representação 
do Conhecimento (Web Semântica), Recuperação da Informação (Sistema de Buscas 
e Banco de Dados), Linguística Computacional (Processamento de Linguagem 
Natural) e Análise de Dados (Aprendizado de Máquina e Mineração de Textos), se 
apropria deste termo para um tratamento formal por computadores11. 
3.1.1 da pergunta, O que é Ontologia? 
Desde os primórdios da Metafísica, a ontologia se apresenta como a ciência do 
ser, daquilo que é e sendo, investiga as coisas em todas as áreas da realidade, ou 
seja, uma investigação em relação a seus tipos, estruturas, processos e 
relacionamentos. Aristóteles buscou a construção de uma classificação categorial 
exaustiva dos entes na realidade, na tentativa de fornecer respostas sobre as 
aparências e a configuração do Universo. Através de uma taxonomia dos entes na 
realidade, do microcosmo ao macrocosmo, Aristóteles acreditava ser possível 
apreender toda a realidade em apenas um sistema de categorias. Husserl, outro 
filósofo mais contemporâneo, buscava ontologias regionais que estruturavam um 
sentido do ser em diferentes domínios do conhecimento. Ao invés de uma única 
ontologia, as categorias poderiam ser aplicadas e especializadas cada vez mais em 
domínios mais específicos, mais restritos, criando várias específicas ontologias. 
 
A classificação desejada deveria responder a seguinte questão: Quais classes 
de entidades são necessárias para uma descrição e explicação do que acontece no 
Universo? O Realismo está na base de qualquer ontologia. Filósofos como Kant, 
Frege, Russel e Wittgenstein consideravam que a estrutura da linguagem era uma 
chave para a estrutura da realidade e, que, a estrutura da realidade seria capturada 
sintaticamente por uma lógica, a Lógica de Primeira-Ordem, empregada em algumas 
 
11 Acreditamos em uma forma de aproximação entre Filosofia e “Computadosofia” (o saber 
tratado por computadores), de modo a preencher as motivações desta dissertação, descritas 
na seção anterior. 
15 
 
ferramentas de ontologias atuais. Denotando por ‘F’, o que de geral existe na realidade 
(universal) e ‘a’,’b’,’c’, etc., o que seria individual, a realidade seria sintaticamente 
capturada por F(a) (conhecida como Fantologia12) ou, ainda, pela relação do par 
ordenado de indivíduos, R(a,b). 
 
Assim, além de um formalismo lógico para apreender a realidade através da 
linguagem, o nosso tempo passou a classificar os conteúdos de documentos em 
linguagem natural. Ontologias, taxonomias e tesauros, elementos tratados pela 
Filosofia ou pela Biblioteconomia, passaram a circular no meio da construção de 
algoritmos computacionais. Tais algoritmos focavam no desenvolvimento de 
ferramentas poderosas no tratamento da informação, da documentação e, 
principalmente, na representação de conhecimento. Ainda se confunde organização 
do conhecimento como apenas uma classificação de documentos. Há de se admitir 
que por detrás do conceito de conhecimento e sua organização, existe um conteúdo 
mais profundo, tanto filosófico, como prático (Currás, 2004). Admitimos sim que a 
classificação de documentos é um passo importante na organização do conhecimento, 
contudo não se trata do processo inicial. Faz-se necessário uma carga ontológica, na 
concepção filosófica, para que possamos um dia entender cognitivamente uma 
coleção textual orientada pelos saberes. 
 
A ontologia que se pretende, vai além de um tesauro. Ao se admitir que uma 
ontologia se assemelhe a uma linguagem documental codificada e controlada, como 
um tesauro, comete-se um erro de ordem estrutural. Enquanto um tesauro se inicia 
com uma ordenação de seus termos em hierarquias e relações semânticas e 
sintáticas, a ontologia constrói sua ordenação a partir de peculiaridades e 
propriedades de seus termos (Currás, 2004). 
 
Historicamente, em 1993, no contexto da Inteligência Artificial, surge uma 
definição para ontologia, amplamente disseminada, em uma direção mais próxima da 
filosofia. Admitindo que o ato conceitual sobre um domínio específico é parte 
necessária para a aquisição de conhecimento, Thomas Gruber13 define ontologia 
como uma especificação explícita de uma conceituação14 (Gruber, 1993). Um sistema 
 
12 Fantology em inglês. 
13 Praticamente, qualquer texto sobre ontologias irá citar a definição dada por Gruber. Tal 
definição é quase uma definição ubíqua. 
14 No original temos conceptualization. Entendemos que conceituação é uma tradução aquém 
do significado desejado pelo autor, mas não nos estenderemos aqui e nem traduziremos como 
“conceitualização”.. 
16 
 
baseado em conhecimento, na proposta de Gruber, deve considerar o que “existe” 
como exatamente aquilo que pode ser representado. Em um determinado domínio, 
seu respectivo conhecimento deve ser representado através de um formalismo que 
possa remover ambiguidades frequentes no uso da linguagem natural. 
Pormenorizando a definição de Gruber e privilegiando o aspecto formal, Uschold e 
Gruninger (2004) tratam ontologia como uma especificação formal e explícita de uma 
conceituação compartilhada , entendendo: 
 
• conceituação, como um modelo abstrato de um fenômeno do mundo onde 
pessoas identificam os conceitos relevantes deste fenômeno (restrito a um 
domínio); 
• especificação, como uma explicitação através de nomes e definições, visando 
o entendimento dos conceitos e relacionamentos do modelo abstrato em 
questão; 
• formal, como codificada em uma linguagem passível de tratamento por 
computadores; 
• compartilhada, como um propósito ao uso e reutilização da ontologia por 
diferentes aplicações e comunidades. 
A pesquisa científica, modelando a realidade, tende a criar generalizações 
acerca de um fenômeno observado e busca ordens e regularidades de modo a 
reconhecer tal fenômeno em outra ocasião, com alguma coerência lógica. Nestes 
modelos, essenciais para a conceituação e especificação, surgem 3 (três) noções 
importantes: 
 
1. Universais; 
2. Particulares e Instâncias; 
3. Relacionamentos. 
 
Os universais garantem a abstração e a estrutura filosófica da realidade, 
permitindo o reconhecimento de objetos posteriormente. Enquanto os objetos 
particulares existem em um determinado tempo e um determinado lugar, os universais 
não possuem tempo e lugar fixos, estão em todos os tempos e todos os lugares. O 
papel da pesquisa científica é investigar a natureza dos universais, instanciados por 
entidades ou elementos de diferentes domínios do saber, seja a Biologia, a Química 
ou qualquer outra área da ciência. 
 
17 
 
Os particulares, por sua vez, estando no espaço (lugar) e no tempo, além de sua 
finitude, dependem15 de outros elementos ou universais para serem instanciados. 
Assim sendo, toda ontologia deverá representar o que de essencial estrutura um 
determinado saber, ou seja, deve ser compostade universais acrescida de instâncias 
destes universais. 
 
Os universais são explicitados nas ontologias através de classes (ou conceitos 
para nosso objetivo). Classes também são entidades. Uma classe é uma coleção de 
particulares referenciados por um termo geral, que se aplica a todos os membros da 
classe. Todo particular aplicável a este termo geral será membro da dita classe. Todos 
os universais são classes, porém nem toda classe será um universal. É necessário ter 
em mente que uma ontologia se propõe a representar e divulgar conhecimentos e 
quando focada para reuso, podem surgir classes como ´mulheres africanas de mais de 
60 anos com Aids´, mesmo sem um universal que a corresponda. Tais classes são 
ditas extensões de universais. 
 
A terceira noção se refere aos relacionamentos. Toda hierarquia de termos, no 
sentido ontológico, é constituída de relações entre os termos. Uma taxonomia é uma 
hierarquia de termos onde temos apenas uma única relação, que é a relação que 
obedece ao critério lógico adotado para sua construção. Contudo uma ontologia é 
composta por n relações, a saber: relações entre universais, relações entre universais 
e instâncias e, ainda, relações entre instâncias. Tomemos o elemento químico 
Hidrogênio. Podemos analisá-lo a partir da natureza do universal Hidrogênio, dizendo 
o que é o Hidrogênio, pelo viés de sua estrutura, sua valência, etc., ou seja, conhecê-
lo por relações taxonômicas. Todavia, ao analisarmos o Hidrogênio se relacionando 
com outros universais da tabela periódica, podemos entendê-lo melhor (Spear, 2006), 
com uma compreensão ampliada. Este último tipo de relacionamento é conhecido 
como relações não-taxonômicas. 
 
O Hidrogênio não se conecta com qualquer elemento da tabela periódica, 
existem restrições. Os termos, em uma ontologia, terão suas definições e relações 
restringidas por algum tipo de formalismo lógico. Este formalismo será dado, na 
maioria das ocasiões, pela Lógica de Primeira Ordem, como dissemos anteriormente. 
Além de efetuar inferências para obtenção de relacionamentos não observados 
inicialmente, o uso de restrições ou regras formais permitem transformar os termos 
 
15 Este caráter de dependência é um dos primeiros traços da similaridade entre saberes. 
18 
 
canônicos iniciais em uma “imagem” mais refinada da realidade tratada. Uma vez que 
as regras também encerram em si conhecimentos, a soma total de conhecimentos em 
uma ontologia será dada pela união de seus termos e de suas regras inferenciais 
(Grenon et al., 2003). 
 
Um tipo clássico de relação e que existirá em qualquer ontologia é a relação 
is_a16 (relação taxonômica). Algo, um universal, será alguma coisa, um outro 
universal, explicitado por esta relação. Sabendo que um “bóson é uma partícula 
elementar”, teremos que os termos “bóson” e “partícula elementar” farão parte de uma 
ontologia se relacionando pela relação is_a. Outra clássica relação, não-taxonômica, é 
a relação part_of (parte de). Um pulmão não é um José, porém um pulmão é parte de 
José. As relações não possuem restrições quanto a sua quantidade, dependem 
diretamente do engenheiro de ontologias. Relações como é_adjacente, é_contínuo, 
possui_4patas, etc. podem surgir em qualquer ontologia biológica, por exemplo. Este 
grau de liberdade na escolha de termos e de relações acarretam problemas 
relacionados à compatibilidade e granularidades entre ontologias, visto que dentro de 
um mesmo domínio específico, poderão surgir várias ontologias construídas por 
mentes diferentes. Contudo, não nos ateremos a estes problemas. 
 
3.1.2 dos Tipos de Ontologias 
Tipificando as ontologias, temos 4 (quatro) tipos distintos: 
 Ontologia de Alto Nível (ou Superior) 
 Ontologia de Domínio 
 Ontologia de Tarefas 
 Ontologia Aplicada 
 
A ontologia de alto nível deverá conter um conjunto de universais de alta 
expressividade, de modo a se tornar a espinha dorsal de qualquer ontologia. Ao 
dizermos qualquer ontologia, isto implica em um conjunto de universais tidos como 
categorias, no sentido do termo técnico aristotélico ou kantiano. 
 
 
16 Estamos usando a notação em inglês, porém poderíamos ter usado é_um. 
Figura 
Porfírio sobre as Categorias de Aristóteles (séc.III)
A primeira ontologia da história surge no século III
categorias em essência, quantidade, qualidade, relativo (relação), lugar, tempo, 
posição, possuindo, agindo e sofrendo
fundamentais em qualquer representação do conhecimento acerca da realidade, ou 
seja, as mais significativas generalizações.
 
Existem algumas ontologias de domínios superiores
a letra “O” em maiúsculo. Ora, c
e que sirva de esqueleto comum 
Perspectivismo, diferentes ontologias de uma mesma área de atuação? 
aberto. 
 
Citando algumas ontologias de 
 
 SUMO (Suggested Upper Merged Ontology
A ontologia SUMO, iniciativa do IEEE (
Engineers), uma das 
20.000 termos e 70.000 axiomas
Construída com a linguagem KIF (
19 
 
Figura 4 – Primeira Ontologia da História: 
Porfírio sobre as Categorias de Aristóteles (séc.III) 
extraído de (Smith, 2008) 
 
primeira ontologia da história surge no século III (Figura 4) classifica
essência, quantidade, qualidade, relativo (relação), lugar, tempo, 
, agindo e sofrendo. Tais categorias são consideradas
fundamentais em qualquer representação do conhecimento acerca da realidade, ou 
seja, as mais significativas generalizações. 
Existem algumas ontologias de domínios superiores candidatas à ontologia
Ora, como construir uma ontologia dita neutra de interesses 
e que sirva de esqueleto comum a todas as ontologias? Como integrar, a partir do 
Perspectivismo, diferentes ontologias de uma mesma área de atuação? Perguntas em 
ntologias de alto nível, temos: 
Suggested Upper Merged Ontology), 
A ontologia SUMO, iniciativa do IEEE (Institute of Electrical and Electronics 
 maiores ontologias formais pública, contem
termos e 70.000 axiomas ao combinar todas as ontologias de domínio
Construída com a linguagem KIF (Knowledge Interchange Format
classificando as 
essência, quantidade, qualidade, relativo (relação), lugar, tempo, 
. Tais categorias são consideradas como 
fundamentais em qualquer representação do conhecimento acerca da realidade, ou 
candidatas à ontologia com 
omo construir uma ontologia dita neutra de interesses 
? Como integrar, a partir do 
Perguntas em 
Institute of Electrical and Electronics 
ntem cerca de 
ao combinar todas as ontologias de domínio. 
Format), se 
20 
 
concentra nas áreas de pesquisa, de buscas, de linguística e de mecanismos 
de raciocínios (SUMO, 2011); 
 
 Sowa Diamond 
A ontologia desenvolvida por John Sowa, inspirada na lógica simbólica dos 
filósofos Charles Sanders Peirce e Alfred North Whitehead, se apresenta como 
um estudo das categorias de coisas que existem ou possam existir em um 
determinado domínio. A ontologia é definida como um catálogo de tipos de 
coisas, assumidas como existentes em um domínio de interesse (D), a partir da 
perspectiva de uma pessoa usando uma linguagem (L) ao discorrer sobre o 
domínio (D). Os tipos representam predicados, termos, conceitos e relações de 
L ao discorrer sobre D. Sowa comenta que uma lógica não-interpretada, como 
o cálculo de predicados, grafos conceituais ou KIF se apresentam como 
ontologicamente neutras, porém por si só não dizem nada sobre nada. A 
combinação entre uma lógica com uma ontologia proporciona à linguagem uma 
expressividade, principalmente através de relacionamentos sobre entidades de 
um domínio de interesse (Sowa, 2011). 
 
 DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering) 
Desenvolvida sob orientação filosófica aristotélica e voltada para a Web 
Semântica, tem uma tendência cognitiva, pois pretende capturar as categorias 
ontológicas que subsumem a linguagem naturale o senso comum humano. 
Esta ontologia é considerada como uma ontologia de particulares, ou seja, 
entidades sem instâncias, ao contrário dos universais que possuem entidades 
com instâncias. Diferentemente das demais, parte do princípio que um módulo 
único e monolítico não reflete diferentes propósitos, portanto se baseia em uma 
biblioteca de ontologias fundamentais (WonderWeb Foundational Ontologies 
Library), minimizando incompatibilidades semânticas (Masolo,2011). 
 
 BFO (Basic Formal Ontology), 
A ontologia superior BFO, criada pelo instituto IFOMIS (Institute for Formal 
Ontology and Medical Information Science), desenvolvida sob orientação 
filosófica aristotélica, sobrepondo as ontologias DOLCE e SUMO, é formalizada 
pela Lógica de Primeira Ordem. Diferentemente das anteriores, a ontologia 
BFO é focada em prover uma genuína ontologia de alto nível, servindo como 
esqueleto ontológico a qualquer ontologia de domínio na área científica. 
21 
 
Diferencia-se por não conter termos físicos, químicos, biológicos ou qualquer 
outro termo que possa conflitar com termos de um domínio científico específico 
(BFO, 2011). 
 
Para termos uma pequena ideia sobre ontologias de alto nível, citaremos a 
ontologia BFO, amplamente utilizada na área de pesquisa biomédica nos Estados 
Unidos. Esta ontologia é composta de duas perspectivas ontológicas, SNAP (Figura 5) 
e SPAN, visando representar a realidade espaço-temporal, e se desenvolve a partir de 
3 (três) dicotomias, a saber: entidades independentes e dependentes, continuantes e 
ocorrentes17, universais e particulares. 
 
Não nos aprofundando em todas as dicotomias, descrevemos rapidamente a 
segunda dicotomia. Esta dicotomia (continuantes e ocorrentes) trata do modo como as 
entidades existem no tempo. Algumas entidades existem de modo contínuo no tempo, 
mantendo suas identidades independentes de mudanças temporais, e persistem 
sendo o que são em todos os instantes do tempo em que existem. Imaginemos uma 
série temporal de uma entidade, em qualquer ponto desta série iremos reconhecer a 
existência da entidade em questão. Tais entidades são ditas continuantes. A Terra, 
você, uma bactéria, o vermelho, são exemplos de continuantes. Encontramos em 
qualquer momento toda a bactéria. Mesmo que você perca todos os seus cabelos, 
continuará sendo você. 
 
Os continuantes são constituídos de partes espaciais, como uma bactéria é 
constituída de membrana, núcleo e citoplasma, tudo ao mesmo tempo (Smith, 2008). 
Por outro lado, algumas entidades não possuem um determinado ponto em que 
estejam plenamente presentes. São entidades que se desdobram ao longo do tempo 
como processos, eventos, atividades e mudanças; ocorrem no tempo e se manifestam 
em lapsos temporais, em fases. Tais entidades são ditas ocorrentes. A reprodução de 
uma bactéria, o pouso de um avião, a passagem de um furacão, o seu sorrir. Os 
ocorrentes são constituídos de partes temporais, são entidades quadridimensionais. 
 
Muitos admitem que todas as entidades deveriam ser vistas como entidades 
quadridimensionais (Jansen, 2008). Jansen exemplifica: “Sócrates e sua caminhada 
exibem dois modos distintos de existência; enquanto a caminhada é claramente um 
ocorrente, Sócrates (nele mesmo) também é claramente um continuante 
 
17 Os termos originais em inglês são continuants e occurrents, optamos para os dois termos por 
neologismos que identifiquem agentes. 
tridimensional”. Para darmos cont
como de ocorrentes. 
 
 
 
As ontologias construídas a partir do esqueleto
em atividades canônicas, ou seja, relacionadas ao cotidiano de laboratórios científicos,
contendo apenas termos da pesquisa prática
Partem de porções das ontologias SNAP (
inspiração metodológica utilizada na construção de BFO
2008). 
 
Figura 6 –
 
22 
. Para darmos conta da realidade necessitamos tanto de continuantes
Figura 5 – Ontologia SNAP 
construídas a partir do esqueleto BFO são focadas exclusivamente 
em atividades canônicas, ou seja, relacionadas ao cotidiano de laboratórios científicos,
contendo apenas termos da pesquisa prática (principalmente na área de Biologia). 
das ontologias SNAP (Figura 5) e SPAN, e seguem
utilizada na construção de BFO, conforme a Figura 
 
– Relações Primitivas de um Recorte de BFO 
continuantes 
 
são focadas exclusivamente 
em atividades canônicas, ou seja, relacionadas ao cotidiano de laboratórios científicos, 
(principalmente na área de Biologia). 
seguem a mesma 
Figura 6 (Smith, 
23 
 
Evidencia-se, assim, uma enorme complexidade e abrangência quando se fala 
em ontologias de alto nível. Muitos questionam este tipo de ontologia, apontando-as 
como perda de tempo, preferindo se concentrar em ontologias ditas “mais leves”, 
focando em uma mínima estrutura terminológica (por vezes apenas uma taxonomia) 
que atenda as necessidades de uma comunidade específica (Masolo et al., 2011). 
 
Conseguintemente surgem as ontologias de domínio. Uma vez determinado o 
recorte da realidade (uma determinada área do saber científico), o procedimento para 
construção de uma ontologia de domínio pode ser análogo às ontologias de alto nível 
ou de maneira menos rigorosa, seguindo alguma metodologia menos geral e abstrata 
(conforme veremos na seção 3.4). A ontologia de domínio deverá ser um sistema de 
termos hierarquizados e agrupados a partir de suas propriedades e relações, de 
maneira a caracterizar as entidades de um determinado domínio específico. A 
generalidade não está afastada da ontologia de domínio, porém se restringirá a uma 
generalidade específica de um determinado saber. 
 
Por fim, as Ontologias de Tarefas descrevem conceitos que são específicos de 
uma tarefa, como sintomas para a tarefa de diagnóstico médico a as Ontologias 
Aplicadas são consideradas de menor nível de abstração e combinam a Ontologia de 
Domínio e a de Tarefas, estendo-as com conceitos mais refinados. 
 
3.1.3 das Linguagens Formais de Ontologias 
Embora a noção de ontologias seja independente da Internet, as ontologias 
passaram a ter um papel especial na arquitetura da Web Semântica. Atualmente é 
possível construir uma ontologia e imediatamente disponibilizá-la na Internet como um 
site de conhecimento (Mika, 2007). O uso de ontologias em máquinas não tem como 
intenção apenas o seu reuso e compartilhamento na Internet, mas sim que a mesma 
seja interpretada por máquinas, ou seja, que possua um forte entendimento 
semântico. Diversas técnicas surgiram para o tratamento de termos de modo a tratá-
los de maneira controlada. 
 
O Espectro Ontológico (Figura 7) de Leo Obrst (Obrst, 2003) mostra, ao longo do 
tempo, o crescimento da riqueza semântica e da complexidade nas linguagens lógicas 
adotadas para expressar ontologias. 
24 
 
 
Figura 7 – Espectro Ontológico de Leo Obrst 
 
Em decorrência do avanço da Web Semântica, linguagens voltadas para 
ontologias foram projetadas e recomendadas pela World Wide Web Consortium 
(W3C), tais como: Resource Description Framework (RDF) e Web Ontology Language 
(OWL). Ambas desenvolveram mecanismos para reconhecimento de termos e 
relações em ontologias utilizando identificadores globais únicos (URI) para a Internet. 
Na linguagem RDF, expressões são formadas através de declarações conhecidas 
como triplas, na forma (sujeito,predicado,objeto). O sujeito da declaração necessita ser 
um URI ou um quantificador existencial da linguagem, o predicado necessita ser um 
URI e o objeto pode ser um URI, um quantificador existencial da linguagem ou um 
conjunto de caracteres. Por sua vez, a linguagem OWL foi projetada para adicionar 
construtores da Lógica de Descrição, (Description Logic - DL) à RDF, aumentando 
significantemente a expressividade da linguagem RDF. A linguagem OWL possui por 3 
(três) versões (Lite, DL e FULL), se diferenciando pelo aumento de expressividade 
(OWLLite ⊆ OWLDL⊆ OWLFull). A DL é um conjunto de linguagens para 
representação do conhecimento, baseadas em uma semântica formal de acordo com 
a Lógica de Primeira Ordem. 
 
3.2 das Considerações sobre Mineração de Textos (Text Mining) 
A estratégia adotada nesta dissertação para a construção da Ontologia de 
Domínio Fractal terá as técnicas de Mineração de Textos como subsidiárias das 
informações necessárias para tal tarefa. Diferentemente da confiabilidade das origens 
das informações utilizadas nas técnicas de Mineração de Dados, onde se é possível 
obter aplicações bastante efetivas, gerando dados com alto grau de confiança, a 
Mineração de Textos parte de uma coleção de dados não-estruturados18. Nem sempre 
 
18 Embora algumas coleções de textos possam ter algum tipo de estruturação, como bases em 
XML, nesta dissertação trabalharemos exclusivamente com textos não-estruturados. 
25 
 
é possível retirar as inconsistências de dados sem uma estruturação definida, o que 
acarreta na construção de um modelo que pode ser considerado impreciso por muitos 
(Konchady, 2006). Contudo, mesmo com tal imprecisão, é possível se obter bons 
resultados ao entendermos alguns pontos cruciais que distinguem Mineração de 
Textos, Recuperação da Informação (Information Retrieval – IR) e Processamento de 
Linguagem Natural (PLN). 
 
Mineração de Textos ainda é um conceito relativamente novo e que não possui 
uma definição estreita. Evidencia-se como um conjunto de técnicas para manipulação 
e obtenção de informações sobre textos, que perpassam pela Inteligência Artificial, 
Estatística, Teoria da Informação e, principalmente, das pesquisas em Recuperação 
da Informação (Information Retrieval – IR) e Processamento de Linguagem Natural 
(PLN). 
 
As pesquisas sobre Recuperação da Informação, iniciadas em meados de 1960 
com a chegada dos PC’s conectados a computadores de grande porte, se sofisticaram 
no sentido de encontrar informações em base de dados textuais. O modelo de busca e 
recuperação da informação a partir de palavras chaves ainda é amplamente utilizado 
nos atuais buscadores na Web. Palavras simples (unigramas), compostas por duas 
palavras (bigramas) ou por n palavras (n-gramas) são utilizadas para busca de 
documentos relevantes. Este aumento no número de palavras nas buscas impôs um 
mínimo uso de linguagem natural ao formular consultas baseadas em perguntas, do 
tipo Qual a capital do Brasil? 
 
 Por outro lado, o Processamento de Linguagem Natural surgiu como um sub-
tópico da Inteligência Artificial, ao idealizar máquinas que pudessem se comunicar em 
linguagem natural com seres humanos. Neste caminho, a Inteligência Artificial se 
deparou com dois grandes problemas: alcançar o entendimento da linguagem natural 
na entrada e gerar uma saída compreensível em linguagem natural. O primeiro 
problema continua a não ter uma solução trivial. Contudo, “em vez de um profundo 
entendimento da linguagem, abordagens mais rudimentares obtiveram sucesso em 
tarefas específicas. O Processamento de Linguagem Natural poderia ser utilizado 
como um entendimento da análise ou síntese de textos e não necessariamente um 
entendimento dos textos” (Konchady, 2006). Assim sendo, a Recuperação da 
Informação e o Processamento de Linguagem Natural passaram a compartilhar 
algoritmos e métodos estatísticos, juntamente com a ajuda de dicionários léxicos, para 
responder questões mais elaboradas. Embora estas sofisticadas técnicas estocásticas 
26 
 
derivem seus resultados através de uma análise sintática e estatística de palavras 
(principalmente substantivos), o contexto semântico dos textos não seria capturado. 
Muitos ainda consideram que estes métodos estatísticos parecem ser inadequados 
para extração de um conhecimento contextual, porém para determinados propósitos 
são razoavelmente eficientes (Li et al., 2009). 
 
A Mineração de Textos possibilitou a construção de ferramentas que iriam além 
de um simples envio de questões a um buscador, permitiu que a resposta de tais 
buscadores pudesse ser manipulada no sentido de encontrar padrões, tendências e 
relacionamentos em uma base textual. A Mineração de Textos não substitui a 
Recuperação de Informação, tampouco o Processamento de Linguagem Natural, mas 
possibilita, juntamente com o uso de Ontologias, a construção de ferramentas e 
estratégias eficientes na produção de informação a partir de uma coleção de textos 
(principalmente de forma contextual). 
 
3.3 de Técnicas de Mineração de Textos Úteis à Construção de Ontologias 
Tendo como ponto de partida a análise de eventos linguísticos de uma base 
textual, o Corpus, ao invés de uma tentativa de entendimento de seus textos, a 
eficiência dos resultados que adotaremos para esta dissertação advém de um modelo 
de probabilidade de alguns eventos linguísticos, como: ocorrência de palavras, co-
ocorrência de palavras, distribuição de probabilidades, informações mútuas, etc. As 
saídas deste primeiro modelo produzem uma redução na complexidade dos textos 
para a tarefa seguinte, tarefa de extração de palavras ou termos19 representativos. 
Esta é considerada a tarefa mais essencial, apontando os mais prováveis termos 
candidatos a conceitos de uma ontologia de domínio. Esta transformação dos textos 
plenos para termos representativos, dependendo da técnica e ferramenta 
empregadas, permite um ganho substancial no custo computacional. Uma vez de 
posse dos termos relevantes ou representativos de uma base textual, estes são 
analisados derivando medidas e análises linguísticas, como veremos mais adiante. 
 
3.3.1 da Importância de Substantivos e a Extração de Termos 
Obviamente todo texto possui palavras dispostas segundo uma ordem ou uma 
sintaxe, de modo que qualquer humano instruído possa entender e compreender o 
significado e/ou a informação que se deseja comunicar. Ao entendimento humano não 
 
19 Não faremos distinção entre termos e palavras neste momento. Adotaremos conceitos 
apenas aos termos da ontologia de domínio final. 
27 
 
é possível juntar em uma sequência, qualquer combinação de palavras. As palavras 
possuem funções bem definidas, umas são palavras de contexto (substantivos, 
verbos, adjetivos e advérbios), enquanto outras são palavras funcionais (conjunções, 
pronomes, preposições e delimitadores). Estas palavras se relacionam sintaticamente 
gerando sentenças. 
 
As palavras de contexto, geralmente, representam pessoas, animais, ideias, 
coisas ou lugares. Nas sentenças, as palavras funcionais referenciam as palavras de 
contexto a um contexto (Konchady, 2006). Esta organização gramatical das palavras, 
juntamente com a criação de vocabulários e dicionários, proporciona a riqueza 
semântica que o ser humano instruído dispõe para comunicar conhecimento. No 
entanto, estamos diante de uma tarefa: representar o conhecimento de um domínio 
específico a partir de uma combinação de conhecimentos específicos previamente 
escritos por especialistas, com o uso de computadores e sem uma leitura humana, ou 
seja, uma tarefa a partir de textos não-estruturados. 
 
Como dito na seção anterior, optaremos por um modelo de distribuição de 
probabilidades de eventos linguísticos20. Portanto, em um primeiro momento, haverá 
uma desconstrução das sentenças, objetivando reter automaticamente termos que 
possam significar algo a um especialista e que possam gerar automaticamente (sem 
um especialista) possíveis relacionamentos com outros termos. 
 
A técnica mais simples para extração de termos, revelando conceitos em um 
Corpus, é a contagem da frequência dos termos. Nesta técnica todos os termos 
possuem a mesma importância antes da busca de termos relevantes. Em geral, tal 
abordagem advém do pressuposto que um termo frequente, em um conjunto de textos 
de um domínio específico, indica um conceito relevante

Continue navegando