Baixe o app para aproveitar ainda mais
Prévia do material em texto
Seminário de Tecnologia da Informação e Comunicação RECUPERAÇÃO DE INFORMAÇÃO EM SISTEMAS DE INFORMAÇÕES NA CONSTRUÇÃO CIVIL: O CASO DAS EXTRANETS DE PROJETO Eduardo Toledo Santos1 e Luiz Antonio do Nascimento2 Departamento de Engenharia de Construção Civil Escola Politécnica da Universidade de São Paulo Resumo: As chamadas Extranets de projeto são sistemas baseados na WWW, de acesso restrito a usuários autorizados de várias organizações participantes num empreendimento de construção civil. Tais sistemas permitem o armazenamento de toda a documentação da obra, facilitando a comunicação entre os vários agentes envolvidos e o acesso à informação. No entanto, como num projeto típico de construção pode-se gerar milhares de documentos, em pouco tempo o que se observa é uma sobrecarga de informações, caracterizada pela incapacidade dos usuários em localizar com eficiência as informações de que necessitam. As extranets de projeto atuais contam apenas com mecanismos relativamente primitivos para localização de documentos, normalmente baseados em busca por palavras chave especificadas pelos usuários. Este é o mesmo mecanismo usado para pesquisas na Internet (WWW) através de mecanismos de busca como Google (www.google.com) e outros que, tipicamente, retornam centenas ou milhares de documentos frente a uma solicitação de busca por palavra chave. Isso ocorre pelo generalismo de tais sistemas e pela descontextualização da informação. A primeira característica é necessária pois estes sistemas destinam-se a todos os públicos. A segunda é consequência da primeira. Numa extranet de projeto, estas condições não precisam ser mantidas. O tema dos documentos armazenados em extranets é bem delimitado (a construção civil) bem como seu objeto (a obra em questão). Um sistema de busca que se utilize dos conhecimentos do domínio da Construção Civil bem como de informações específicas do empreendimento sendo gerenciado pode obter muito maiores eficiência e eficácia na recuperação de documentos relevantes ao usuário. Neste trabalho é apresentada uma proposta para um sistema de recuperação de informações de extranets de projeto baseado no conhecimento registrado em thesaurus, classificações e padronizações para o setor de Arquitetura e Construção, bem como em informações específicas do projeto documentado e um conjunto de regras específicas para localização de informação neste contexto. Palavras chave: Recuperação de Informações, Extranets de projeto, Sobrecarga de Informações, Gerenciamento do Conhecimento, CDCON, OCCS, MasterFormat™. 1 Professor Doutor. Correio eletrônico: eduardo.toledo@poli.usp.br 2 Mestrando. Correio eletrônico: luiz.donascimento@poli.usp.br Av. Prof. Almeida Prado, trv. 2, n.83 – Edif. Eng. Civil 05508900 São Paulo - SP Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 111 1. Extranets de Projeto Atualmente, uma das principais tecnologias da Internet ligadas à Construção Civil são os web sites para gerenciamento de projetos, chamados Extranets de Projetos ou Sistemas de Gerenciamento de Projetos Baseados na Web. Estes sistemas são baseados em tecnologias da informação que viabilizam a realização de transações comerciais entre empresas através da Internet, prestação de serviços, troca de informações estratégicas e a substituição de práticas como as de tirar fotocópias, envio de fax, reuniões presenciais e uso de correio. Nestes sistemas, todos os documentos de projeto e o fluxo de trabalho relativos a um empreendimento são gerenciados, compreendendo desde as etapas iniciais de estudos de viabilidade até o término da obra, ou até mesmo operação do edifício, proporcionando informações aos intervenientes vinte e quatro horas por dia, sete dias por semana. O funcionamento do sistema está baseado no fato de existir um ambiente na web exclusivo para o projeto, onde tanto o gerenciador quanto os vários intervenientes multidisciplinares (arquitetos, engenheiros, fornecedores, construtores e proprietários) podem armazenar, visualizar e alterar arquivos relacionados ao projeto, de forma controlada e auditável. As trocas de informações nas extranets reduzem o grande volume de papel normalmente gerado ao longo do desenvolvimento de um empreendimento. Extranets de projetos são voltadas para gerenciadores de empreendimentos que tenham necessidade de: · envio, recebimento, armazenamento e controle de grande quantidade de documentos (desenhos CAD, figuras, memorandos, planilhas, etc.); · um sistema on-line para comunicação (vídeo conferencia, chat, e-mails, fóruns de discussão, listas, etc.); · automatização racional dos processos e do fluxo de trabalho (workflow). As extranets de projetos são meios que permitem centralizar, administrar e tornar acessível, via navegador de websites (browsers), o resultado do trabalho dos diversos profissionais e empresas envolvidos no processo, integrando firmas com clientes, parceiros e fornecedores. Também contribuem no controle e garantia da qualidade com reuniões virtuais da equipe de projeto nas diversas etapas de seu desenvolvimento, possibilitando análise crítica por toda a equipe. Havendo uma única versão dos documentos, o controle de recebimentos, modificações, atualizações e cópias de projetos são facilitadas, aumentando a velocidade de comunicação e atualidade das decisões tomadas. O acompanhamento das obras pelos projetistas (às vezes através de webcams), a confecção de projetos “as built” e de manuais de manutenção da edificação também tornam-se mais simples pela centralização da documentação. Apesar da grande proliferação destes sistemas (tabela 1), chegando a mais de 160 empresas prestadoras deste serviço só nos Estados Unidos (Revista Techné, n.51) e várias no Brasil, sua penetração junto ao mercado não tem sido tão grande quanto esperado devido a resistências culturais e organizacionais. Estes sistemas são uma ferramenta de gerenciamento e, para utilizá -la no máximo de seu potencial, é necessário que estejam implantadas estratégias organizacional e de gestão adequadas. Eduardo Toledo Santos e Luiz Antonio do Nascimento 112 Tabela 1 – Provedores de serviço de Extranets de Projeto Um dos mais graves problemas na busca de soluções para alcançar maior produtividade e qualidade na Indústria da Construção Civil é a falta de dados para consulta quando da elaboração dos documentos técnicos de projeto (Schmitt, 1993). Soibelman e Caldas (2001) mencionam que “à medida que um grande volume de informação está fluindo entre os membros de um projeto, cresce a necessidade de verificar se informações precisas e relevantes estão disponíveis a cada um destes membros, no momento apropriado”. Num sistema de informações, ao longo de um empreendimento, é comum o armazenamento de milhares de documentos diferentes. Por exemplo, no projeto do Aeroporto de Denver estiveram envolvidas uma centena de empresas de arquitetura e projeto, 160 construtoras e mais de 2000 sub-contratadas, sendo gerados 180.000 arquivos de CAD e outros sistemas e mais 48.000 documentos diversos (Amá, 2002). Uma busca simples pode retornar dezenas de arquivos, dif icultando a localização da informação desejada que, por vezes, nem consta da lista de respostas localizadas pelo sistema. A maioria dos sistemas de gerenciamento de documentos de projeto dispõe apenas de uma ferramenta de busca de arquivos rudimentar, baseada em pesquisa direta de palavras-chave e, às vezes, outros campos associados com o documento (tipo, data de criação, autor, etc.). As figuras 1 a 3 ilustram os formulários de busca dos líderes do mercado de extranets de projeto. Empresa Site Acos Web www.pmhost.de/acos/acos_web/index_e.htmlAll Project www.allproject.com.br/gproj.html Bricsnet www.bricsnet.com/ Buzzsaw www.buzzsaw.com/ Citadon www.citadon.com ConstructionTracker www.constructiontracker.com Constructw@re www.constructware.com/ E-Builder www.e-builder.net/ Expedition www.verano.com.br/produtos/expedit7.htm ICEAS iceas.net/ IronSpire www.ironspire.com/products/index.htm Neogera www.neogera.com.br OnLinePM www.onlinepm.com/ OnProject www.onproject.com/ Primavera TeamPlay www.primavera.com/products/teamplay.html ProjectEdge www.onlineproject.com/website.nsf ProjectWatch www.projectwatch.net/ Sistrut / SADP www.sistrut.com.br/sadp/ Skire www.skire.com/ TeamCenter www.inovie.com/product/workplace.jsp The PowerTool www.thepowertool.com/ USProjects www.usprojects.com/ VieCon www.viecon.com/en/default.asp Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 113 Figura 1 – Formulário de busca ProjectNet / Citadon Figura 2 – Formulário de busca ProjectPoint / Buzzsaw Figura 3 – Formulário de busca BricsNet Eduardo Toledo Santos e Luiz Antonio do Nascimento 114 Dessa forma, as extranets de projeto podem, por um lado ajudar na obtenção rápida de dados atualizados mas, por outro, causar a chamada “sobrecarga de informações” (information overload), característica da Internet, com quem compartilham muitos traços. A seção seguinte discute alguns aspectos da sobrecarga de informações. 2. Sobrecarga de Informações A sobrecarga de informações ocorre pela inabilidade de extrair o conhecimento que se necessita de uma imensa quantidade de informações (Nelson, 1994). Com o advento e crescimento exponencial da World Wide Web, a maioria dos usuários de mecanismos de busca já tiveram a oportunidade de experimentar os efeitos da sobrecarga de informações que, se aguda, pode se transformar em “ansiedade de informação” (Wurman, 1991). A literatura médica atesta que profissionais da computação sofrem mais de esgotamento do que aqueles da mesma categoria que têm pouco ou nenhum contato com computadores (Toppinen & Kalimo, 1996), correlacionando positivamente o estresse causado pela incapacidade de lidar com a exagerada quantia de dados recebida diariamente com manifestações físicas e psicológicas. À parte os males à saúde (Murray, 1998) potencialmente causados pela sobrecarga de informações, um efeito negativo básico é que o usuário, inundado por uma quantidade enorme de dados imediatamente acessíveis através dos sistemas de informação, efetivamente acaba por não conseguir obter de forma satisfatória a informação de que necessita. O diretor do Institute for the Future, Paul Saffo, diz que a sobrecarga de informações não é função do volume de informações armazenadas, mas sim do distanciamento entre o volume de informações e as ferramentas disponíveis para assimilarmos aquelas informações em conhecimento útil (Foley, 1995). Assim, a sobrecarga de informações não é um fenômeno inevitável, mas apenas a falta de tecnologias apropriadas para buscar mais precisamente os dados exatos para nossas necessidades, sem redundância excessiva. Para esta finalidade são necessárias as técnicas de um campo do conhecimento chamado de “Recuperação de Informações” (Information Retrieval) (Baeza -Yates & Ribeiro Neto, 1999). 3. Recuperação de Informações Um Sistema de Recuperação de Informações (IR – Information Retrieval) é formado por máquinas e programas de computadores, utilizados para buscar informações em bases de dados onde são armazenados documentos. Segundo Baeza-Yates e Ribeiro Neto (1999), as técnicas de IR fazem parte da área da Ciência da Computação que estuda a recuperação de informação (não dados) de uma coleção de documentos. Os documentos recuperados objetivam satisfazer uma necessidade de informação dos usuários. O termo IR é usado desde os anos 50 para automatização de tarefas de pesquisa manual. Um dos primeiros modelos de pesquisa a ser adotado foi o Modelo Booleano que se tornou o mais adequado em sistemas gerenciadores de banco de dados. Outro modelo de pesquisa Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 115 desenvolvido foi o Modelo de Aproximação onde os documentos são recuperados e ordenados em listas de forma a colocar no topo os mais próximos do requerido. Para recuperação da informação em extranets deve-se levar em conta como ela foi armazenada. As principais atividades devem ser a indexação (modo de representar documentos, consultas (queries) e a pesquisa (modo de analisar itens com vista às respostas das buscas solicitadas). Para o processamento das buscas, indexação automática e extração de raízes gramaticais dos termos (stemming), foram criadas diversas operações sobre termos e consultas. Alguns exemplos destas operações são a Análise Léxica, Algoritmos de Pesquisa em Cadeias e Operações de Radicalização. Na Análise Léxica, há uma transformação de uma seqüência de caracteres em uma seqüência de palavras. Esta operação é utilizada para diminuir a quantidade de palavras com baixo nível potencial para pesquisa, para ajudar na indexação automática e para o processamento das consultas onde a Análise Léxica produz palavras para a comparação com termos de índice. Os Algoritmos de Pesquisa em cadeias de caracteres permitem encontrar ocorrências de um padrão. Alguns exemplos de algoritmos são o Algoritmo Exaustivo, de Knuth-Morris -Pratt, Boyer-Moore e Rabin-Karp. As Operações de Radicalização são utilizadas para extração de raízes de termos de busca fazendo com que diminua a quantidade de termos a indexar, sem os sufixos e prefixos, plurais, etc. Exemplos de Operações de Radicalização (ou lematizadores) são o Algoritmo de Porter (1980) e, especificamente para a língua portuguesa, os algoritmos “Pico e Platô” (Nascimento, 1997) e baseados em léxicos (Silva e Oliveira, 2001) . A avaliação dos resultados obtidos por um algoritmo de IR pode ser feita, entre outras formas, de acordo com suas medidas de precisão e revocação (Baeza-Yates & Ribeiro Neto, 1999). A precisão é a porcentagem dos itens recuperados que são relevantes. A revocação (recall) é a porcentagem dos itens relevantes que foi recuperada (figura 4). RECUPERADOS RELEVANTES ARMAZENADOS = PRECISÃO = REVOCAÇÃO Figura 4 – Avaliação de algoritmos de recuperação de informações Para aumentar a precisão de uma busca, o sistema de recuperação de informações deve ser capaz de descartar itens recuperados que são irrelevantes. Para Eduardo Toledo Santos e Luiz Antonio do Nascimento 116 isso, deve saber contextualizar os dados recuperados, de forma a identificar falsos relacionamentos que levaram à inclusão inicial de um documento no conjunto de itens recuperados. Para melhorar a revocação , o algoritmo de busca utilizado deve perceber a relevância de documentos de forma não explícita. Em ambos os casos, o conhecimento do domínio da aplicação poderá ajudar. Idealmente, a representação do conhecimento de um certo domínio deve ser feita através de uma ontologia. Para a filosofia, ontologia é o estudo da existência do ser. Tecnicamente, uma ontologia pode ser definida como "uma especificação formal e explícita de uma conceituação compartilhada". A palavra conceituação refere-se a uma abstração, visão simplificada do mundo que desejamos representar para algum propósito, construído através da identificação dos conceitos e relações relevantes. O termo explícita indica que os tipos de conceitos e as restrições ao seu uso são explicitamente definidos. Formal significa que a ontologia deve ser compreensível por um computador (não pode ser somente escrita em linguagem natural).Finalmente, compartilhada implica em que o conhecimento representado é consensual, aceito por um grupo e não por um só indivíduo (Duineveld et al., 1999) (Santos et al., 2001). De forma simplificada, uma ontologia é o vocabulário usado para representar um certo domínio do conhecimento e a conceituação que estes termos pretendem capturar (Chandrasekaran et al., 1999). Assim, é mais do que a terminologia e classificação que representações como a IFC da IAI ou a aecXML oferecem (Katranuschkov, 2002). Apesar de ser o mecanismo ideal para representação completa, precisa e computacionalmente tratável do conhecimento do domínio da Construção Civil, o desenvolvimento de ontologias para qualquer área é complexo e trabalhoso, não havendo nenhuma pronta na área de Arquitetura e Construção. Dessa forma, há que se recorrer às terminologias e classificações que estão em desenvolvimento atualmente. Dentre essas destacam-se a OCCS e, no Brasil, o CDCON, detalhadas na próxima seção. 4. A Organização do Conhecimento sobre Construção Civil pela Padronização Há atualmente um grande esforço mundial para a integração de produtos e processos das mais variadas indústrias. Uma das maneiras para se conseguir a integração é através da interoperabilidade que pode ser obtida através da classificação de produtos e processos para criação de padrões semânticos. Estes padrões relacionam um conjunto de termos a aspectos do produto e do processo. O setor da Construção Civil também tem seguido esta tendência, motivado por vários fatores. Entre eles destacam-se a globalização, o uso das extranets de projeto, a necessidade de competitividade e, portanto, de obtenção de informações rápidas e precisas para as tomadas de decisão frente a enorme quantidade de dados disponíveis e, por fim, o estabelecimento da padronização da (meta)linguagem XML3 (eXtensible Markup Language) e seu crescente sucesso nas mais variadas aplicações. 3 http://www.w3.org/XML/ Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 117 Na área da Construção Civil existem vários grupos ao redor do mundo que estão tentando criar padrões semânticos para a integração do setor. Alguns dos mais destacados sistemas de classificação de produtos e processos são o OCCS4 (OmniClass™ Construction Classification System) e o CSI MasterFormat™5. O OCCS é o principal esforço de padronização da indústria da construção atualmente e pretende abranger todas etapas envolvidas na criação e sustentação do ambiente construído, da concepção à demolição. Atualmente o padrão OCCS prevê 12 tabelas de classificação (OCCS, 2001): · Table 1 – Facilities · Table 2 – Constructed Entities · Table 3 – Spaces · Table 4 – (Designed) Elements · Table 5 – Work Results · Table 6 – Products · Table 7 – Process Phases · Table 8 – Process Services · Table 9 – Process Participants · Table 10 – Process Aids · Table 11 – Process Information · Table 12 – Attributes O MasterFormat, de origem americana e mais antiga, em sua versão 04 prevê uma atualização para acomodar todas as fases da construção e permitir expansões futuras, garantindo compatibilidade com outros padrões como o OCCS e EPIC6. A nova versão proposta inclui as seguintes divisões: 0 - Procurement & Contracting Requirements 1 - General Requirements 2 - Existing Conditions 3 - Concrete 4 - Masonry 5 - Metals 6 - Wood & Plastics 7 - Thermal & Moisture Protection 8 - Doors & Windows 9 - Finishes 10 - Specialties 11 - Equipment 12 - Furnishings 13 - Special Const 14 - Conveying Equip 21 - Life Safety & Facility Protection 22 - Plumbing 23 - HVAC 24 - Electrical 25 - Communications 31 - Site & Underground Construction 32 - Site Improvements 33 - Transportation 34 - Waterway & Marine Construction 41 - Fluid Treatment 42 - Power Generation 43 - Processes Outro esforço importante é a padronização da linguagem aecXML7 pela IAI – International Alliance for Interoperability. Esta é uma linguagem baseada em XML usada para representar informação dos setores de Arquitetura, Engenharia e Construção (AEC). Esta informação inclui projetos, documentos, materiais, componentes, organizações, profissionais e atividades como propostas, design, estimativas, cronogramas e construção. O objetivo principal é a troca de informação do setor de AEC na Internet. No Brasil está em desenvolvimento um sistema para padronizar a terminologia e codificar materiais e serviços da construção chamado CDCON8 (Amorin et al., 2002). Este esforço é muito importante pois trata-se de uma iniciativa 4 http://www.occsnet.org/ 5 http://www.csinet.org/technic/mflite.htm 6 http://www.epicproducts.org/ 7 http://www.iai-na.org/aecxml/mission.php 8 http://www.cdcon.ufjf.br/ Eduardo Toledo Santos e Luiz Antonio do Nascimento 118 para a língua portuguesa falada no Brasil e leva em conta a cultura técnica do setor da Construção Civil no Brasil, que apresenta vários aspectos diferentes daqueles praticados em outras partes do mundo. O padrão CDCON atualmente propõe uma classificação baseada em 5 facetas (ANTAC, 2002): · Faceta Processo: conjunto de atividades que realizadas resultam no produto Edificação; · Faceta Componente : materiais e produtos consumidos no processo da construção; · Faceta Elemento: produtos de um processo construtivo; · Faceta Espaço: partes de uma construção delimitadas conforme sua utilização espacial; · Faceta Uso: diferentes usos dos produtos da construção. Um outro esforço de padronização brasileiro que nos interessa neste trabalho, porém de caráter mais específico, são as Diretrizes Gerais para Intercambialidade de Projetos em CADD da AsBEA – Associação Brasileira de Escritórios de Arquitetura (Cambiaghi et al., 2000). Esta proposta visa padronizar nomes de diretórios , nomes de arquivos CADD dentro destes diretórios e nome dos layers dentro destes arquivos. A estruturação dos diretórios é baseada em fases e qualificação da informação dentro das fases (tabela 2). Fases Tipo de Informação das Fases LV Cond. Existentes, Levant. PN Programa de Necessidades EV Estudo de Viabilidade EP Estudo Preliminar AP Anteprojeto PL Projeto Legal PE Projeto Executivo AO Alterações de Obra BAS Desenhos de bases a serem referenciados DET Detalhamento DOC Documentação técnica da fase FLS Folhas contendo des. de base e detalhamento GEN Arquivos auxiliares, genéricos , dispersos IMG Imagens MOD Modelos, Perspectivas, Isométricos, Arqu. 3D Tabela 2 – Abreviação para nomenclatura de nomes de diretórios (AsBEA) Na recomendação da AsBEA, a nomenclatura para nomes de arquivos é baseada nas disciplinas e tipo de desenho (tabela 3). Por fim, há sugestões para os nomes dos layers relativos a cada disciplina e detalhe. A tabela 4 oferece alguns exemplos. Caso as empresas participantes de um empreendimento sigam estas recomendações, é possível a localização mais imediata de informações contidas em arquivos CAD, como será visto mais adiante. Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 119 Disciplinas Desenhos TO Topografia AR Arquitetura ES Estrutura EL Instalações elétricas HI Instalações hidráulicas IN Combate ao fogo AC Instalações de ar-condicionado TE Telecomunicações e dados PA Paisagismo AI Interiores e decoração CO Instalações de cozinha LU Luminotécnica AU Acústica VD Vedações O* Outros consultorias LV Condições existentes, levantamentos DE Demolições IM Implantações PL Plantasbaixas FO Plantas de forro EL Elevações EI Elevações internas CB Coberturas CT Cortes DH Detalhes horizontais DV Detalhes verticais DT Detalhes gerais EQ Equipamentos LE Acabamentos/legendas 3D Desenhos 3d/ isométricos DG Diagramas AM Ampliações específicas ... ... FU Fundações FR Formas ... ... LU Iluminação QD Quadros ... ... AF Água fria AQ Água quente ... ... HD Hidrantes DU Dutos e bocas de ar TL Telefonia Tabela 3 – Abreviação para nomenclatura de nomes de arquivos (AsBEA) Nome do Layer Descrição AR-ALV Alvenaria alta AR-CXO-IDE Indicação de caixilhos AR-QUA Elétrica - quadros AR-LUM Luminotécnica AR-OPC-IDE Nomes/números de identificação de ocupantes AR-AMB-IDE Nomes/números de identificação de ambientes AR-ARE Áreas perímetros ... ... TO-AZI Distâncias e azimutes ... ... LU-FOR Pontos de iluminação no forro/teto LU-LUM-IDE Identificação de luminárias HI-AFQ-TUB Tubulações de água fria e quente HI-EQP-MET Metais ,válvulas registros, etc. Tabela 4 – Exemplos de nomenclatura de layers (AsBEA) Eduardo Toledo Santos e Luiz Antonio do Nascimento 120 5. Busca Inteligente de Documentos em Extranets de Projeto Atualmente estamos desenvolvendo pesquisas para criar uma ferramenta de busca inteligente, capaz de responder perguntas arbitrárias relativas às informações disponíveis no banco de documentos de uma extranet de projeto. Este é um objetivo ambicioso, porém nossa primeira abordagem será deliberadamente simples, não envolvendo conceitos sofisticados de Inteligência Artificial ou algoritmos complexos de Recuperação de Informações ou Knowledge Discovery in Databases (KDD) (Soibelman & Kim, 2000). No prosseguimento da pesquisa, de acordo com os resultados obtidos e problemas detectados, técnicas mais específicas deverão ser incorporadas. A despeito da eficácia ou não na obtenção de uma “resposta” correta, direta e objetiva à pergunta do usuário nesta ferramenta, certamente este sistema poderá apresentar ao usuário uma lista de documentos importantes, classificados em ordem de relevância, melhor do que aquela obtida com técnicas convencionais de indexação por palavra chave. A busca e classificação serão baseadas em informações específicas do domínio da Construção Civil e da obra em questão e poderá, freqüentemente, incluir documentos que nem sequer contenham palavras chaves presentes na pergunta original do usuário. Na ferramenta proposta, o sistema procura oferecer uma resposta objetiva à pergunta do usuário junto com uma lista ordenada de documentos, armazenados na extranet de projeto, que foram relevantes para a resposta fornecida. O usuário sempre deve consultar os documentos listados para que confirme a correção da resposta obtida. Nem sempre o sistema será capaz de oferecer uma resposta direta à pergunta, mas em geral listará alguns documentos, classificados por relevância. O processo de busca inteligente de documentos é suportado pelos seguintes elementos, detalhados à seguir, e ilustrado na figura 5: · Bases de conhecimento; · Documentos da extranet, indexados; · Banco de regras; · Consulta original do usuário, processada; · Parâmetros de busca. Exemplos de perguntas do usuário ao sistema poderiam ser: - Qual o preço da luminária do saguão principal ? - Qual a cor da parede da suíte master ? - Quem é responsável pelas instalações hidráulicas ? - Quando será feita a concretagem da laje do 3º piso ? Para que as perguntas sejam respondidas objetivamente, as respostas obviamente devem existir, mesmo que de forma implícita, nos documentos disponíveis na extranet de projeto. Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 121 Figura 5 – Arquitetura do sistema de recuperação de informações 5.1 Bases de Conhecimento A busca de documentos em nossa proposta será otimizada pelo uso do conhecimento do domínio da Construção Civil, contido basicamente nas seguintes origens: · Sistemas de classificação, thesaurus e padronizações, conforme ilustrados na seção 4; Thesaurus CDCON OCCS Cronograma Agentes etc. Fases Hierarquia Norma AsBEA Documentos da Extranet Indexados Banco de Regras Pergunta do Usuário Processamento Parâmetros de Busca Ponderados Resposta à Pergunta Lista de Documentos Relevantes Processamento Eduardo Toledo Santos e Luiz Antonio do Nascimento 122 · Lista de termos não convencionais, específicos da obra ou das empresas que participam do empreendimento: ferramentas/equipamentos não convencionais, tipos de documentos e atributos não convencionais (cores, marcas, modelos, etc.). Estes termos devem ser classificados no sistema da mesma forma que os convencionais, do item acima. · Informações específicas do empreendimento tais como cronograma, lista de agentes – nome, login, profissão, função no projeto, etc. –, lista de cômodos/locais da obra ou do empreendimento, etc. · Outras informações do processo da Construção Civil não caracterizadas exclusivamente por palavras-chave. Ex: seqüência de fases do processo de projeto e do processo construtivo, hierarquia de cargos, etc. Estas informações são armazenadas em estruturas de dados convenientes, permitindo associar todas as informações ligadas aos sistemas de classificação, thesaurus e padronizações às palavras-chave indexadas. A figura 6 ilustra um exemplo de parte da hierarquia de informações ligadas às bases de conhecimento. O retângulo mais externo representa a faceta Produtos (de classificações como CDCON ou OCCS). Estas são sub-classificadas em Produtos para Instalações Elétricas e, dentro desta categoria, Produtos para Iluminação chegando, finalmente, no produto Luminária, que é a palavra chave indexada que serve de entrada na base de conhecimento. Associadas ao conceito “luminária”, existem informações referentes às recomendações da AsBEA para nome de disciplina, que permitirá caracterizar o nome dos arquivos CAD que podem conter informações relevantes, bem como para o layer, permitindo investigar layers específicos dentro destes arquivos CAD. Subindo na hierarquia, o sistema identifica informações associadas à categoria “Produtos para Instalações Elétricas” que, devido ao sistema hierarquizado, se aplicam a todas as sub-categorias e, portanto, à Luminária também. Neste caso, tem-se o tipo de agente (profissional) responsável pela especificação daqueles produtos (Engenheiro Elétrico). No caso específico de luminária, esta caracterização poderia estar também no próprio nível de produto, com o valor “Arquiteto” já que este profis sional também poderia especificar este produto específico, mas não todos os produtos de instalações elétricas (não mostrado na figura 6). O último nível contém indicação de quais tipos de documentos podem conter especificações de produtos, no caso, “memorial descritivo”. Este conjunto de informações permitirá a definição dos parâmetros de busca (seção 5.2). O uso deste conhecimento permite agregar “inteligência” às buscas, melhorando sobremaneira a qualidade dos resultados. A visão básica é reproduzir o comportamento de um humano informado, conhecedor dos processos da construção civil e do empreendimento específico, instruído a localizar uma informação nos documentos da extranet de projeto ou a responder uma questão, baseado naqueles documentos. Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 123 Figura 6 – Exemplo parcial de organização da Base de Conhecimentos 5.2 Parâmetros de busca O objetivo inicial do sistema de busca é produzir um conjunto de parâmetros ponderados que deverão dirigir a recuperaçãode documentos. Este conjunto de parâmetros inclui os seguintes campos: · Autor do documento (um agente cadastrado); · Tipo do documento (memorando, orçamento, mensagem, arquivo CAD, planilha, etc.); · Se o tipo for “CAD” (.dwg, .dxf, .dgn, etc.): o Diretório / Nome do Arquivo / Layer (Norma AsBEA); · Data de criação (ou período); · Palavras chaves (da consulta do usuário) Associado à cada parâmetro há um peso calculado em função das regras executadas para determiná-lo, conforme indicado na seção seguinte. Cada um dos parâmetros acima pode receber um ou mais valores (ou nenhum). Cada valor terá um peso individual a ele associado. Os pesos são usados na classificação de relevância dos documentos, determinando a ordem em que serão apresentados ao usuário. 5.3 Banco de Regras de Busca O Banco de Regras é um sistema de armazenamento de regras de processamento de consultas destinado a produzir os parâmetros de busca. Produtos para Construção Produtos para Instalações Elétricas Eng. Elétrico Agente Produtos para Sistemas de Iluminação Luminária (produto) LU: Luminotécnica Disciplina LU-LUM-IDE: Identificação de Luminárias Layer Memorial Descritivo Tipo de Doc. Eduardo Toledo Santos e Luiz Antonio do Nascimento 124 Os parâmetros são ponderados (têm notas) de forma que o atendimento a cada um deles tenha um valor específico a ser atribuído a um resultado de busca, permitindo a priorização das buscas e a ordenação das respostas. As regras poderão ser descritas em uma linguagem genérica e neutra como a PMML – Predictive Model Markup Language (http://www.dmg.org/index.htm ou http://xml.coverpages.org/pmml.html) quando tais padrões estiverem maduros. Um interpretador deve executar as regras assim descritas. Inicialmente as regras estarão implementadas em linguagem orientada a objetos, como subclasses da classe QueryRule. Esta classe tem como argumento de entrada um objeto da classe UserQueryDescriptor e como saída um objeto DocQuery (especifica uma busca). A classe UserQueryDescriptor contém, de forma organizada em suas estruturas de dados internas, todas as informações sobre a consulta do usuário, já processada pelo sistema de processamento básico. Há também regras da classe FilterRule que recebem o resultado das buscas e as processam, definindo a ordenação por relevância. Estas regras são aplicadas após a execução das buscas especificadas pelas QueryRules processadas. Um processo principal define quais regras serão executadas (chamando métodos das QueryRules que as descrevem, para verificar sua adequação) e em que ordem, de acordo com a ponderação. Processa também os resultados, aplicando as FilterRules cabíveis e fazendo a ordenação a ser apresentada ao usuário. O usuário tem acesso à pontuação de cada resultado e o trecho relevante do documento. A resposta específica à pergunta feita pelo usuário também deve ser obtida processando o resultado das buscas através de outro conjunto de regras (AnswerRules). Uma busca pode ser feita em mais de uma “camada/passo”: informações encontradas num arquivo podem tornar-se parâmetros de busca para serem usados em uma nova pesquisa complementar (redirecionamento). Uma regra pode estabelecer que o usuário deve ser consultado para validação dos parâmetros, priorização (qual o mais importante ou relevante) ou seleção de parâmetros (qual destes ?). Neste caso, a interface do sistema obterá estas informações junto ao usuário, através de diálogo interativo. Com a localização de uma palavra-chave nas bases de conhecimento indexadas, há uma associação semântica àquela palavra. Sabe-se ao que ela se refere e o que é (um material, uma pessoa, um lugar, um processo, um componente e componente de quê, etc.). Estas informações são usadas pelo banco de regras para definir os parâmetros de busca, conforme exemplificado na seção 5.1. Algumas regras se utilizam de outros tipos de informação. Por exemplo: · Papel do usuário no sistema organizacional do empreendimento O papel do usuário é verificado de acordo com as autoridades e responsabilidades associadas a cada um dos cargos, setores e funções retratadas no organograma hierárquico da empresa. Os papéis Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 125 desempenhados pelos ocupantes dos cargos dividem a organização em camadas, escalas ou níveis de autoridade, tendo os superiores autoridade sobre os inferiores. Em função da divisão e da especialização do trabalho e da hierarquia, pode-se, conceitualmente, dividir a organização em três níveis: estratégico, tático e operacional (Vivancos e Cardoso, 2001). De acordo com Cruz (1998), a abrangência das relações de comunicação é dada de cima para baixo, ou seja, uma pessoa que ocupa um cargo operacional não tem acesso a informações de um funcionário de cargo estratégico mas um profissional do nível estratégico pode ter informações de todos os níveis abaixo. Uma regra codificando esta noção pode atribuir maior ou menor relevância a documentos produzidos por certos profissionais em função da posição do usuário na hierarquia do empreendimento. · Fases do empreendimento / fase atual Tradicionalmente, a maior parte das informações requeridas por um profissional numa certa fase do empreendimento devem ter sido produzidas na fase imediatamente anterior ou na fase atual. Assim, esta regra pode atribuir maior relevância a documentos produzidos naquelas fases. 5.4 Preparação de documentos Uma etapa sempre necessária, anterior às buscas, é a preparação e análise dos documentos disponíveis na base de dados, tornando as fases posteriores eficientes. Caldas e Soibelman (2002) descrevem uma seqüência de processamento cujas etapas iniciais – padrão em sistemas de recuperação de informações – são adequadas a este propósito. O início da seqüência referida é semelhante às fases 1.1 a 1.3 descritas abaixo para processamento do texto da pergunta do usuário. A seguir, é necessário fazer a indexação das palavras extraídas. Adotamos a estratégia de construção de arquivos invertidos (inverted files) (Baeza -Yates & Ribeiro Neto, 1999), que permite determinar rapidamente quais arquivos contém determinado termo e sua posição aproximada. Outro processamento, preliminar aos anteriores, consiste na geração de arquivos de texto equivalentes àqueles em outros formatos (planilhas, arquivos CAD, mensagens de correio eletrônico, memorandos, atas de reunião, discussões em fóruns eletrônico, arquivos de processadores de texto, PDF, XML, HTML, etc.). Basicamente devem ser extraídos os textos contidos nestes arquivos, desprezando formatações, marcadores, fórmulas de cálculo, etc. Os arquivos originais devem ser preservados para apresentação ao usuário. 5.5 Processamento de Consultas O processamento da pergunta formulada pelo usuário deve seguir as seguintes etapas: Eduardo Toledo Santos e Luiz Antonio do Nascimento 126 ETAPA 1: Pré-processamento do texto da pergunta: 1.1 Análise léxica: transformar um conjunto de caracteres em um grupo de palavras, usualmente separadas por um ou mais espaços. Palavras com números, hífens e pontuação devem ser tratadas caso a caso; 1.2 Eliminação de “palavras vazias” (stopwords): são palavras que não carregam significado em linguagem natural como preposições, artigos, conjunções, etc. Devem ser eliminadas para melhorar a eficiência dos algoritmos de busca; 1.3 Lematização ou Radicalização (stemming): redução de termos às suas raízes ortográficas pela eliminação de prefixos, sufixos, conjugações, plurais, etc.; 1.4 Categorização de palavras: as palavras restantes, contidas na frase digitada pelo usuário (a pergunta), devem ser analisadas para classificá-las em uma das seguintes categorias: a. Determinantes (Qual, Como, Onde, Quem, Por que, Quanto, Quando); b. Palavras indexadas na base de conhecimento; c. Palavras específicas do empreendimento (nomes de pessoas envolvidas, ruas, edifícios, espaços da edificação, máquinas especiais, processos especiais, ferramentas especiais, atributos, etc...); d. Palavras desconhecidas (outras palavras). ETAPA 2: Processamento de palavras categorizadas: 2.1 Processamento de determinantes: Os determinantes dão uma indicação de que tipo de elemento deve conter a resposta esperada pelo usuário e que deve ser fornecida pelo sistema e são usadas por regras específicas que processam os arquivos localizados: o Qual: um item de uma lista (valor de um atributo); o Como: um processo; o Onde: um lugar, um espaço do edifício; o Quem: um dos participantes cadastrados (pess. física ou jurídica); o Por que: uma razão (frase próxima às palavras chave encontradas); o Quanto: um valor; o Quando: uma data / hora / fase do cronograma. Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 127 2.2 Processamento de palavras indexadas na base de conhecimentos: O processamento de palavras encontradas no thesaurus e outros elementos da base de conhecimento depende de sua classificação e estarão também ligados às regras de processamento: · Atributos: processamento depende do tipo. o Cor: procurar por quaisquer cores registradas na tabela do sistema (branco, amarelo, ocre, azul, verde...); o Preço/custo/custa: procurar valor numérico, preferencialmente precedido por “$”; · Identificar tipo de profissional relacionado; o Selecionar prioritariamente documentos criados por este tipo de profissional; · Identificar fase; o Período de datas de criação do documento (junto com informações do cronograma); 2.3 Processamento de palavras específicas do empreendimento: Estas palavras deverão ser registradas no sistema e catalogadas como as demais das bases do conhecimento. Assim, seu processamento deve ser o mesmo das palavras daquelas bases. 2.4 Processamento de palavras desconhecidas: Devem ser usadas apenas como palavras chave de busca. 6. Conclusões As Extranets de Projeto só se tornarão um recurso realmente eficaz para o melhor gerenciamento de projetos se os usuários puderem obter informações de forma rápida e confiável. O cenário atual apresenta uma situação oposta, conduzindo à sobrecarga de informações. Neste trabalho foi apresentada uma proposta de ferramenta inteligente de recuperação de informações baseada no conhecimento do domínio da Construção Civil. Este conhecimento está representado pelas diversas padronizações e classificações sendo atualmente desenvolvidas acrescidas de dados específicos do empreendimento e um conjunto de regras de busca. Referências bibliográficas AMÁ, R. Tecnologia da Informação no Processo de Projetos da Construção Civil. 1º Seminário Neogera: Tecnologia para Toda Obra. São Paulo, jun. 2002. Slides. Eduardo Toledo Santos e Luiz Antonio do Nascimento 128 AMORIM, S. R. L.; PEIXOTO, L.; NUNES, R.; MADEIRA, L. C. Specification Standards for the New Management Settings of Construction. Proceedings IGLC-10, Aug. 2002, Gramado, Brazil. Disponível em: http://www.cpgec.ufrgs.br/norie/iglc10/papers/4-LeusinEtAl.pdf ANTAC CDCON Diretrizes Gerais para o Projeto , rev. 02, fev. 2002. BAEZA-YATES, R. ; RIBEIRO NETO, B. Modern Information Retrieval . Addison Wesley, Harlow, 1999.TIC CALDAS, C. H., SOIBELMAN, L.; Automated Classification Methods: Supporting the Implementation of Pull Techniques for Information Flow Management. Proceedings IGLC-10, Aug. 2002, Gramado, Brazil. Disponível em: http://www.cpgec.ufrgs.br/norie/iglc10/papers/99-Caldas&Soibelman.pdf CAMBIAGHI, H., AMÁ, R., CASTANHO, M., WESTERMANN, M. Otimização e Padronização de Informações em CADD - Integração entre Projetistas, Construtoras e Clientes - Revisão 1.5.1 - Fase I – Bases de Dados e Sistemas de Nomenclatura, AsBEA, Abril de 2000. Disponível em http://www.tecto.com.br/digital/indice_noticia.asp e http://www.asbea.org.br/. CHANDRASEKARAN, B.; JOSEPHSON, J. R.; BENJAMINS, V. R. What are ontologies, and why do we need them? IEEE Intelligent Systems , p.20-25, January/February 1999. CRUZ, T. Workflow - Tecnologia que vai revolucionar processos . Atlas, 1998. DUINEVELD, A. J.; STOTER, R.; WEIDEN, M. R.; KENEPA, B.; BENJAMINS, V. R: Wondertools? A comparative study of ontological engineering tools. Proceedings of the 12th Workshop on Knowledge Acquisition, Modeling and Management (KAW'99), p 4.6.1-4.6.20, Banff, Canada, October 1999. FOLEY, J. Managing Information: Infoglut. Information Week , Oct. 1995. Disponível em http://www.informationweek.com/551/51mtinf.htm. KATRANUSCHKOV, P.; GEHRE, A. Engineering Ontology. 2002. Disponível em: http://cib.bau.tu-dresden.de/forschungsbericht/res -act/2001/pikage-01.html. MURRAY, B. Data smog: newest culprit in brain drain. American Psychological Association Monitor . V. 29, n. 3, march 1998. Disponível em: http://www.apa.org/monitor/mar98/smog.html. NASCIMENTO, M. A. Radicalização (Stemming) em Sistemas de Recuperação de Informação para a Língua Portuguesa [online]. 1997. (Resumo). Disponível: em: http://www.dcc.unicamp.br/seminario/anuncios/mario.html Recuperação de Informação em Sistemas de Informações na Construção Civil: O Caso das Extranets de Projeto 129 NELSON, M. R. We Have the Information You Want, But Getting It Will Cost You: Being Held Hostage by Information Overload, ACM Cr ossroads , v.1, n.1, 1994. Disponível em: http://info.acm.org/crossroads/xrds1-1/mnelson.html. OCCS Development Committee, The Overall Construction Classification System - A Strategy for Classifying the Built Environment - Preliminary draft for review and comment, October 2001. Disponível em http://www.occsnet.org PORTER, M. F. An algorithm for suffix stripping. Program, v.14 n.3, pp 130-137, July 1980. Disponível em: http://telemat.det.unifi.it/book/2001/wchange/ download/ stem_porter.html SANTOS, E. T. ; BARROS, L. N.; VALENTE, V. C. P. N. Projetando uma Ontologia de Geometria Descritiva. Anais do IV Congresso Internacional de Engenharia Gráfica nas Artes e no Desenho (GRAPHICA 2001), p.918-928, nov. 2001, São Paulo, SP. SCHMITT, C. M. Documentação de projetos para edificação: solução para este quebra-cabeças. Anais do V ENTAC, v.2, p.637, São Paulo, Nov. 1993. SILVA, G. F. ; OLIVEIRA, C. M. G. M. Lematizadores com base em léxico. Relatório Técnico n.069/DE9/01, Instituto Militar de Engenharia, Depto. de Engenharia de Sistemas, jun. 2001. Disponível em: http://www.ipanema.ime.eb.br/RelTec/2001/Rt69-01.pdf SOIBELMAN, L., KIM, H., Generating Construction Knowledge with Knowledge Discovery in Databases. 8th International Conference on Computing in Civil and Building Engineering (VIII-ICCCBE), August 2000, Stanford, CA. SOIBELMAN, L.; CALDAS, C. H. S. Avaliação da Logística de Informação em Processos Inter-Organizacionais na Construção Civil. In Simpósio Brasileiro de Gestão da Qualidade e Organização do Trabalho no Ambiente Construído, 2., 2001, Fortaleza. Anais... Fortaleza: Associação Nacional de Tecnologia do Ambiente Construído, 2001. 1 CD-ROM. TOPPINEN, S. KALIMO, R. Information overload - a risk factor in the information society. Työterveiset, Finlândia, n.2, 1996. Disponível em: http://www.occuphealth.fi/e/info/tyoterv/engl96/salla.htm. VIVANCOS, A. G.; CARDOSO, F. F. Estruturas organizacionais de empresas construtoras de edifícios. BT/PCC/306. São Paulo: EPUSP, 2001. 14p. Disponível em: http://www.pcc.usp.br/Publicações/PDF/BTCAP306.pdf WURMAN,R. S. Ansiedade de Informação - como transformar informação em compreensão. Cultura Editores Associados, São Paulo, 1991.
Compartilhar