Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTADO DE MINAS GERAIS UNIVERSIDADE ESTADUAL DE MONTES CLAROS – UNIMONTES CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS – CCET DEPARTAMENTO DE CIÊNCIAS DA COMPUTAÇÃO CURSO DE TECNOLOGIAS DA INFORMAÇÃO Curso Seqüencial em Tecnologias da Informação Disciplina: Tecnologias de Comércio Eletrônico Carga Horária: 80 h/a Período: 4° Ementa: Introdução. Comportamento de usuários e caracterização de carga de trabalho. Cenários. Business to Business (B2B). Arquitetura da WWW. Gerência de Recursos: Servidores de Comércio Eletrônico; Servidores de Venda; Publicidade; Tecnologia de Suporte; Criptografia. Modelagem, Personalização, Distribuição e Ferramentas de Desempenho de Serviços de Comércio Eletrônico. Estudo de Casos (Modelos de Negócios). Período: 31/07/2006 à 04/10/2006 Professor: Rodrigo Leite Durães. Introdução Através destes últimos anos, a Internet deixou de ser apenas uma rede científica para ser uma plataforma que está possibilitando uma nova geração de negócios. A primeira onda de negócios eletrônicos foi fundamentalmente a troca de informações. Mais tipos de negócios tornou-se eletronicamente disponíveis. A tecnologia revolucionou a forma de realizar negócios. A Nova Economia necessita de um novo paradigma, mas o processo de conversão levará algum tempo para ser completado. A Internet está mudando o conceito das aplicações. Estamos movendo em direção à computação universal e em direção aos serviços eletrônicos. Conhecer e usar este novo mundo é essencial para a sobrevivência de qualquer organização, aquelas que terão sucesso serão as que souberem utilizar ás ferramentas digitais para reinventar sua maneira de operar e fazer negócios. Nunca foi tão fácil para o cliente observar o que o competidor do seu fornecedor tem a oferecer. Nem do competidor ver o que está sendo oferecido pelo fornecedor. Um cuidado especial deve existir para que não se transmita ao cliente a imagem de que sua empresa virtual é uma entidade separada da empresa tradicional de tipo “tijolo-e-cimento” que ele já conhece. Muitos só fazem a transação porque confiam na sua empresa: não se pode perder este diferencial competitivo. Aspectos legais e governamentais ainda não estão plenamente definidos nos países. Entender o que acontece com as finanças, produtos e clientes, minimiza expressivamente o gasto operacional. Procedimentos, conceitos, processos, técnicas e tecnologia buscam garantir a: confidencialidade, integridade e disponibilidade da informação em qualquer meio. O que é um enorme desafio, pois a informação é, cada vez mais, armazenada, manipulada e transmitida em formato digital. 2 O cenário de e-business vai deslocar o centro das atenções das empresas com relação à Internet. O Brasil, por exemplo, saiu da 18ª posição em 1998 e alcançou a 8ª posição em janeiro de 2004 em número de usuários da internet. Na área bancária está em marcha uma onda de investimentos dos bancos brasileiros em tecnologia - 1 bilhão de reais. Objetivo: trata-se da adaptação às regras do próximo acordo da Basiléia apelido dado às normas do Banco de Compensações Internacionais. O e-Business pode ser definido como sendo um complexo sistema de integração envolvendo o e-Commerce e não somente a empresa, mas também fornecedores prestadores de serviço ou outros agentes. Todo o conjunto de sistemas de uma empresa interligado aos sistemas de diversas outras empresas, interagindo para que o e-Commerce aconteça. Em termos do computador o e-Business pode ser entendido como - todo o conjunto "atrás da tela" e na "frente da tela". O forte do e-Business é a consolidação de novos modelos de negócios e gestão de empresas, usando a internet como infra-estrutura, como rede, essencialmente em seu aspecto tecnológico: a padronização do uso do protocolo TCP/IP. Comércio Eletrônico (EC) Historicamente - compra de CDs e livros. - http://www.amazon.com Compra de bilhete aéreo - exemplo de e-Commerce Existe por trás: - sistema de cobrança bancária ou cartão de crédito; - sistema de gerenciamento de tráfego aéreo - informações de atrasos. - sistema de fornecimento de catering. e-Commerce - parte visível e-Commerce é parte do e-Business - mais visível, não sendo a mais importante. Parte visível do e-Busines é por meio dele que as transações de compra e venda de produtos e serviços acontecem. 3 Ponta de vista do comprador: - processo de compra - Desejo/necessidade - Processo de busca - Avaliação Tomada de decisão Proposta do e-Commerce/formas: - compra/venda deve ser fácil para o cliente - usabilidade - conscientizar o cliente do valor agregado no processo de compra pela Internet - possibilitar ao cliente personalizar produto/serviço - aumentar o poder de venda - ferramenta para auxiliar o gerenciamento da equipe de vendas Ex. Comércio Musical - o formato MP3 criou uma nova indústria musical, exclusivamente em função do novo modelo de e-Commerce. Business to Business (B2B). É feito por meio da Extranet. A Extranet consiste em duas Intranets conectadas via Internet, por meio do que duas organizações são capazes de visualizar dados confidenciais da outra. Normalmente, apenas pequenas partes da informação são disponibilizadas para os parceiros, o suficiente para possibilitar a realização de negócios. As redes business-to-business já existiam antes da Internet. Muitas organizações montaram redes privadas para comunicar-se com parceiros e clientes. Mas mantê-las tornou-se muito caro. Graças à utilização da Internet, os custos caíram drasticamente. Para manter as transações de negócio privadas, redes virtuais privadas (VPNs) são utilizadas na maioria dos casos. O foco se deslocará para o B2B (Business to Business). Mas chegar ao B2B significa mudar a mentalidade, organização, processos e tecnologia das empresas. 4 Negócios entre empresas pela Internet: • 1999-dimensão económica mundial- 145 bilhões de dólares/ ano. (=PIBde SP) • 2004 -7.29 trilhões de dólares/ano (=PIB dos EUA) Essa é a magnitude do poder de transformação dos negócios na Intenet e- Bussiness: • uso predominante dos recursos de Extranet. Business-to-Consumer (B2C) – Desafios A competição é muito maior no EC do que no comércio tradicional. Você deve planejar modelos de negócios orientados ao seu cliente (esta é uma das bases do CRM). Modelos de negócios unicamente voltados à linha de produtos tendem a “morrer” nas guerras de descontos do mundo .com. Já está surgindo o Web Call Center, em que os mesmos serviços são prestados, no entanto, a partir de um ícone em uma página de um site na Internet e através de recursos multimídia. Esta é a face mais proeminente que a maioria das pessoas já viu na Internet. Tradicionalmente, isto é o que a maioria das pessoas conhece como e- commerce: vender produtos na Web. • Venda direta aos consumidores • Uso de recursos da Internet. 5 Arquitetura da WWW. Internet é uma Rede Mundial de Computadores baseada em um conjunto de protocolos e Web é um dos mais avançados serviços que a Internet oferece. INTERNET começou a ser definida em 1958 e chamava-se ARPANET (uma instituição militar associada a cientistas de universidades). Passou a ser utilizada em 1969. É uma rede de computadores por meio da qual qualquer comunidade pode se comunicar e trocar informações. O INTER da palavra vem de interligada e o NET de Network, malha de comunicação. WEB ou Wide World Web nascida em1989, é um sistema de informações interconectadas que reside na INTERNET, ou seja, é um subconjunto da INTERNET que foi sugerido por Tim Berners-Lee. Também pode ser entendido como a parte gráfica (visível) da INTERNET. Um fator de sucesso foi a criação de um padrão de comunicação - Internet Standards, baseado na especificação de protocolos padrões de comunicação Internet Protocol (IP). Outros protocolos utilizados: POP3 e SMTP - envio e recebimento de e-mails IRC – chats HTTP - transferência de hipertextos Uma Intranet também usa o mesmo protocolo HTTP, com acesso de usuários restrito a uma autorização por parte do gerenciador da Intranet. Empresas configuram a Intranet para ligar seus sistemas de informação internamente e dar acesso a funcionários, sócios e quem quer que esteja autorizado. Permitindo que diferentes Intranets autorizem acesso entre seus usuários internos. Permitindo também que gerentes de cada Intranet configurem mutuamente as autorizações de acesso por grupo de usuários ou individualmente (identificação de usuário e senha). Gerência de Recursos: Servidores de Comércio Eletrônico; Publicidade; Tecnologia de Suporte; Criptografia. 6 Call Center Serviço de atendimento telefónico, geralmente gratuito, usando o padrão mundial 0-800 ou 1-800. A principal característica desse serviço é a interação com pessoas (e não gravações pré-formatadas). Esse recurso tem sido muito usado para vendas, informações, atendimento ao consumidor para dúvidas, reclamações ou informações. ERP - Enterprise Resource Planning. Sistemas integrados de gestão empresarial. Ter um sistema de gestão totalmente integrado para a maioria das médias e pequenas empresas é um sonho. Normalmente as aplicações desse porte, exigem mudanças bruscas no comportamento e no modelo gerencial adotado pelas empresas, e na maioria das vezes todo o parque informático é substituído, como também será necessário um reaprendizado por parte dos empresários e seus funcionários; elevando assim o custo de implantação. Em alguns sistemas ERP existem módulos e base de dados separados para análise. - Segurança: O fornecedor do ERP se encarrega da segurança das informações dos clientes. - Atualizações: Com os programas de Business on-line, os técnicos da empresa fornecedora dos ERP se encarregam das atualizações do software. - Custos: Talvez essa seja a maior vantagem desse novo modelo de negócios. O custo do sistema é calculado pelo número de usuários que a empresa tem. - Ex: No caso do Business on-line, os valores variam de cinco dólares, para usuários que fazem apenas consultas, até 600 dólares, para pessoas que inserem diariamente informações no sistema. Dificuldades de Implantação do ERP - Requer um volume astronômico de dinheiro. - Necessidade de um grande volume de reuniões entre a empresa e os consultores de implantação. - Auto custo de atualização dos produtos. 7 - Dificuldade de escolher o melhor produto de acordo com o perfil da empresa. - Necessidade de mão de obra especializada em administração dos recursos de TI. e-ERP: ERP - sistemas integrados de toda a empresa. Produção, Contas a Pagar, Controle de contas bancárias, Aplicações Financeiras, Recebimentos, Depreciação, etc. e-Procurement JackWelch, em sua autobiografia, conta que, quase no 'apagar das luzes' de sua gestão como presidente da GE, acabou cedendo às pressões e deu inicia á implantação de um projeto de e-Business: o e-Procurement - plataformas eletrõnicas para compras. Em apenas 1 ano, trouxe ganhos de aproximadamente 1,5 bilhão de dólares para a GE. e-SCM O gerenciamento da rede de fornecedores (Suppiy Chain Management). O SCM é o sistema de informações que integra o ERP da empresa com os sistemas de informações de seus diversos fornecedores. Feito isso em troca de informações em protocolo da internet (IP), teremos o e- SCM. Ex.: Um DSS que integrasse nosso ERP e e-SCM poderia imediatamente traçar os diferentes cenários em relação á nâo-existència do item em estoque com quantidade suficiente, já indicando os custos, tempos, rentabilidade e exeqüibílidade de cada uma das alternativas possíveis. É o sistema de procura de itens para fornecimento, fora da rede de fornecedores do e-SCM. É o "departamento de compras" da empresa tradicional. Sua função é não só achar fornecedores, mas também cotar os melhores preços e condições de fornecimento. 8 CRM CRM é um acrônimo de origem inglesa Customer Relationship Management que significa em português Gestão de Relacionamento com o Cliente (gerenciamento da relação com o cliente, em português do Brasil). CRM é um sistema integrado de gestão com foco no cliente, constituído por um conjunto de procedimentos/processos organizados e integrados a um modelo de gestão de negócios, do Inglês "Business Process Management" (BPM). Alguns softwares que auxiliam e apóiam esta gestão, é comumente classificados e denominados como Sistemas de CRM. Seu objetivo principal é auxiliar as organizações a angariar e fidelizar clientes ou prospectos, fidelizar clientes atuais procurando atingir a sua satisfação total, através do melhor entendimento de suas necessidades e expectativas e formação de uma visão 360 graus dos ambientes de marketing. O CRM abrange, na generalidade, três grandes áreas: Automatização da gestão de marketing Automatização da gestão comercial, dos canais e da força de vendas. Gestão dos serviços ao cliente Os processos e sistemas de gestão de relacionamento com o cliente permitem que se tenha controle e conhecimento das informações sobre os clientes de maneira integrada, principalmente através do acompanhamento e registro de todas as interações com o cliente, que podem ser consultadas e comunicadas a diversas partes da empresa que necessitem desta informação para guiar as tomadas de decisões. Uma das atividades da Gestão do Relacionamento com o cliente implica em registrar os contatos realizados pelos clientes, de forma centralizada. Os registros não dependem do canal de comunicação que o cliente utilizou (voz, fax, e-mail, Chat, SMS, MMS, etc.), e servem para que se tenham informações úteis e catalogáveis sobre os clientes. Qualquer informação relevante para as tomadas de decisões pode ser registrada, analisadas periodicamente, de forma a produzir relatórios gerenciais dos mais diversos interesses. O CRM é uma estratégia de gestão de negócios através do relacionamento com o cliente, para a realização de maior lucratividade e ganhos de vantagem competitiva, destacando para isto a participação da tecnologia como forma 9 para automatizar os diversos processos de negócio, como vendas, marketing, serviços ao consumidor, suporte a campo. O CRM integra pessoas, processos e tecnologia para aperfeiçoar o gerenciamento de todos os relacionamentos, incluindo consumidores, parceiros de negócios e canais de distribuição. Ele é uma tendência mundial, porque ele é mais do que um software ou um conjunto de processos, é uma cultura global de negócio, focada em ganhar e manter os clientes certos. E nesta economia global competitiva, uma estratégia-chave de negócios é focada em infra-estrutura e entrega de processos de negócios, para gerenciar e entregar valor do cliente através de vários canais. O CRM é uma tendência mundial dentro das organizações. É fruto de um complexo desenvolvimento integrado de diversas áreas dentro de uma organização impulsionada diretamente pela tecnologia da informação nos processos de armazenamento, processamento e distribuição. Suas melhores decisões são baseadasfundamentalmente no fluxo, na integração e na agilidade de processamento de suas informações. Entender o que acontece com as finanças, produtos e clientes, minimiza expressivamente o seu gasto operacional. Até então - sistemas de informação apresentavam no máximo um histórico de compras já feitas pelo cliente ou suas informações cadastrais. Para tanto diferentes estratégias são apresentadas: • Gerenciar o relacionamento com os não-clientes, objetivando a conquista de novos clientes no universo da Internet; • Maximizar a qualidade e a satisfação dos clientes atuais; • Fidelização - O CRM visa à lealdade do relacionamento que se estabelece com o cliente Encantar aquele que já é cliente, no entanto está com um nível baixo de atividade. O CRM permite esta visão, dando maior agilidade nas tomadas de decisões, permitindo um DATA MINING eficiente, onde o foco vai ser direcionado a quem sustenta o seu negócio; o CLIENTE, minando assim os dados de uma forma rápida precisa e de forma simples. Permitindo uma diferenciação no tratamento aos clientes como manda a máxima do marketing 1 to 1. Entender o que acontece com as finanças, produtos e clientes, minimiza expressivamente o seu gasto operacional. 10 e - CRM: As principais novidades têm sido as operacionalizações das ferramentas de Data Mining e Data Warehouse, ligadas a aplicações de CRM, notadamente na prospecção de clientes para novos serviços e produtos. Principio de Marchall para análise de Investimento É baseado na análise de retorno sobre o investimento (ROI) ou retomo do investimento (Payback). Qualquer investimento racional só é feito quando o retomo (resultado) é maior ou igual ao valor investido. Deve-se levar ainda em consideração. Aplicar um recurso qualquer deve resultar num retorno maior ou igual àquele que se obteria ao se aplicar o mesmo recurso no mercado financeiro, levando em consideração o crescimento médio da economia e da inflação. No entanto, não è isso que está acontecendo. Não tem sido possível mensurar o retorno em decisões de investimentos em tecnologia de informação e mesmo assim investimentos enormes têm sido feitos. Este é o paradoxo. Ex.: Empresa HMSA Compra de lote de ações – sócio da empresa Compra de 1% das ações – lote 1.000.000 de ações Valor líquido dos ativos da HMSA = $100.000.000,00 logo sua parte em ativos seria de $1.000.000,00. Valor líquido patrimonial de cada ação é $1,00. Ações devem ter seus preços correlacionados ao patrimônio líquido das empresas. Preço das ações < valor patrimonial – bom momento para investir. Preço das ações > valor patrimonial – cuidado! 1929 – crack da bolsa de Nova Iorque Preço das ações >> valor patrimonial – acionistas começaram rapidamente a vender suas ações. A grande oferta de ações desequilibrou o mercado e fez os preços despencarem 11 Mesma situação aconteceu recentemente, mas não aconteceu o crack. 1993 – 2000 – índice Dow Jones chegou aos 12.000 pontos 2001 – desaceleração do crescimento da economia norte-americana Preço das ações >> valor patrimonial – principalmente as das empresas de alta tecnologia (Nasdaq) Vendas crescentes de ações – desequilíbrio no mercado – despencam os preços n a bolsa. 2002 – índice Dow Jones – queda de 30%, índice Nasdaq – queda de 50%. Ex.: Empresa HMSA Lucro líquido ao término do ano R$10.000.000,00 Retenção de 50% para novos investimentos e reforço de caixa. Distribuição de 50% entre os acionistas. Quem tem 1% das ações – receberá $50.000,00 Empresa que anuncia lucro – preços das ações sobem no mercado. O modelo econômico apropriado para explicar esse fenômeno é o de Schumpeter. Entre seus estudos a Teoria do desenvolvimento Econômico e os Ciclos de Negócio As empresas comportam-se orientadas estrategicamente pela competição Q = f(C, K, S, L, j, t), onde: Q = Faturamento C = Capital Investido em Tecnologia de Informação K = Capital Investido em todos os demais setores (exceto TI) S = Dispêndio com salários, treinamentos e pagamentos de terceiros relacionados aos serviços em TI. L = Dispêndio com salários, treinamentos e pagamentos de terceiros NÃO relacionados aos serviços em TI. Onde (Q) estava sujeito aos fatores externos 12 J = Fator Ambiental T = Tempo Os pesquisadores testaram duas hipóteses (H1 e H2) H1 – variação de Q >= variação de Custos dos fatores ligados a TI (C + S) H2 – variação de Q >= variação de Custos de todos os fatores (C + K + S + L) H1 – se uma empresa investir $10.000,00 em TI – o aumento do faturamento será maior que $10.000,00 H2 – se uma empresa investir $10.000,00 seja em TI, seja em outros setores – o aumento do faturamento será maior que $10.000,00. Os pesquisadores captaram uma relação direta De C (investimento em TI) com Q (faturamento) Cada dólar investido em infra-estrutura de TI – aumento no faturamento da empresa foi de $81,00. De S (serviços em TI) Cada dólar investido em serviços de TI – aumento no faturamento da empresa foi de $2,62. VP = (P/r). [1-CI-nf], onde: - VP = Valor presente (valor do investimento inicial) - P = Valor do acréscimo de receita - r = Taxa de juros ao mês - n = Número de meses para o financiamento - Resolvendo pôr calculadora ou Excel o resultado será sete meses. Ou melhor, em apenas sete meses você pagará o investimento e terá condições de absorver mais outros nove clientes. Década de 90 - Escola Japonesa de Qualidade 13 - Reengenharia - Neo-Taylorismo Americano Passagem do milênio - união das duas escolas associadas ao e-Business = Modelo de Gestão pela Integração Total (GIT) 1993 surgiram nos EUA (Michael Hammer e James Champy), e 1994 - Brasil. "O repensar fundamental e a reestruturação radical dos processos empresariais que visam alcançar drásticas melhorias em indicadores críticos e contemporâneos de desempenho." As técnicas de qualidade visam fazer o que sempre foi feito, no entanto melhor. Reengenharia é começar de novo. Engendra novas soluções pouco ou nada semelhantes às das eras anteriores. Objetivo: juntar os pontos fortes dos dois modelos: Reengenharia e TQC. É um modelo globalizante (nem japonês, nem americano). • Adaptado ao e-Business através de uma nova "escola" norte-americana pós reengenharia: 6 Sigma. Passos no processo 6σ; 1. Foco no cliente: o que para ele é importante e prioritário. 2. Estabeleça critérios para mensuração da melhoria - Ex: Longo tempo de espera para atendimento em um Call Center entrega atrasada despacho de pedido incompleto 3. Alinhamento do processo 6σ a metas ambiciosas e definidas claramente. Os novos modelos de marketing - Marketing de Relacionamento fundamenta- se em: - identificação do cliente - permitir integração - diferenciação/interação - cada cliente - personalização (customização) de produtos e serviços No e-Business o e - CRM acrescenta: - avaliação de benefícios da diferenciação. - rentabilização de todo o processo, para garantir ao cliente a sobrevivência da empresa ao longo do tempo. Fidelização - O CRM visa à lealdade do relacionamento que se estabelece com o cliente 14 Ex-, Porsche da Alemanha - "Estacionamento e Lavagem de Graça”. O que devemos considerar ao se transferir dinheiro pela Internet? • Confidencialidade: detalhes da transação não podem estar disponíveis para terceiros – isso deve ficar claro para seu cliente na Internet. • Segurança: os instrumentos de crédito, como os números de cartões de crédito, não serão utilizados indevidamente;o uso de tecnologias como SSL, SET, Passport, etc. devem ser considerados. • Confiabilidade: os registros de transação, como tipo do produto, quantidade e preço, não serão alterados ou perdidos. Segurança da Informação Procedimentos, conceitos, processos, técnicas e tecnologia buscam garantir a: confidencialidade, integridade e disponibilidade da informação em qualquer meio. O que é um enorme desafio, pois a informação é, cada vez mais, armazenada, manipulada e transmitida em formato digital. Os investimentos estão concentrados em medidas preventivas tais como: proteção do perímetro – Firewalls, antivírus, criptografia, esquemas de autenticação forte, VPNs, etc. Mas, medidas preventivas não são infalíveis. E se elas falharem? Como saber se as medidas adotadas são adequadas/eficientes? Como determinar em quais áreas novos investimentos preventivos deve ser feitos? Hoje empresas e organizações devem ser capazes de detectar incidentes de segurança. Ser capaz minimiza os danos causados por eventuais falhas nas medidas preventivas e situações não previstas pelas mesmas. Os sistemas de detecção de intrusão são fundamentais no auxílio ao trabalho de especialistas. Mas, o que fazer se uma intrusão/violação for detectada? Para isto é preciso: • Equipe de respostas a incidentes. 15 • Procedimentos pré-definidos. • Investigação e preservação de evidências: “Forense computacional”. Pois as lições aprendidas geram revisão/alteração de medidas preventivas. O TCP/IP é um conjunto de protocolos desenvolvidos sem ter segurança como um dos critérios de projeto. Os pacotes IP não possuem nenhuma segurança definida. É relativamente fácil: • Falsificar endereços IP. • Modificar conteúdo de pacotes IP • Retransmitir seqüências de pacotes capturadas • Verificar o conteúdo de pacotes IP em transito. Para vencer as limitações de segurança do TCP/IP a comunidade Internet desenvolveu uma série de protocolos e mecanismos de segurança no nível de aplicação. Um exemplo é o SSL. Praticamente todas as empresas, órgãos governamentais possuem sites Web. WWW é, fundamentalmente, uma aplicação cliente-servidor baseada no TCP/IP. Web é uma aplicação bastante vulnerável na sua concepção original. Além disto, apesar da simplicidade de uso de browsers e até mesmo de configuração de servidores Web, a complexidade é alta o que esconde muitas falhas potenciais. Várias alternativas podem ser utilizadas para fornecer segurança Web, dentre elas o SSL e o SET (especificamente para pagamento utilizando cartão de crédito via Web). SSL O Secure Socket Layer foi criado pela Netscape. O SSL versão 3 foi desenvolvido com apoio da indústria. É composto de duas camadas de protocolos. 16 SET – Secure Eletronic Transaction Em fevereiro de 1996 VISA e Mastercard buscam um padrão de segurança para pagamentos via Web. Microsoft, IBM, Netscape, RSA, Verisign e outras empresas participam da especificação inicial. Em 1998 surgiram os primeiros produtos comerciais. O SET não é um sistema de pagamentos, mas sim um conjunto de protocolos de segurança que permitem que a infra-estrutura de pagamentos utilizando o cartão de crédito existente seja utilizada na Internet. Essencialmente o SET fornece os seguintes serviços: • Canal de comunicação seguro (criptografado) entre as partes envolvidas na transação. • Confiança e reconhecimento através de certificados digitais padrão. • Garante privacidade, pois as informações somente estarão disponíveis para as partes interessadas quando e onde elas forem realmente necessárias. A especificação do SET está disponível na Internet. Criptografia A criptografia pode ser entendida como a ação de reescrever um texto de modo que apenas as pessoas autorizadas pelo autor do texto sejam capazes de compreendê-lo. Num caso deste, o texto normalmente é chamado mensagem e uma pessoa autorizada a ler a mensagem é chamada destinatário. O autor da mensagem pode ser chamado de remetente e a ação de criptografar uma mensagem é chamada de codificação da mensagem. Historicamente, a criptografia surgiu para envio de mensagens de estratégias de combate em guerras, e já era utilizada por Júlio César para envio de mensagens aos seus exércitos em luta na Europa de antes de Cristo. Atualmente, a criptografia é muito utilizada na rede mundial de computadores, Internet. Esta rede permite que haja comunicação entre computadores situados a qualquer distância, comunicação que é feita, em determinados estágios, através de redes telefônicas. Como, tecnologicamente, é muito fácil se interceptar mensagens enviadas através de redes telefônicas, é necessário que 17 alguns tipos de mensagens sejam criptografadas para que apenas o destinatário, ao recebê-la, seja capaz de compreendê-la, no sentido de que leia a mensagem original. Exemplos de mensagens deste tipo incluem transações bancárias e transações comerciais, como compras por cartão de crédito. Utiliza-se a expressão codificar para o ato – que deve ser realizado pelo destinatário – da conversão da mensagem criptografada para a mensagem original, enquanto a expressão decifrar é utilizada para a conversão acima referida realizada por outra pessoa que não o destinatário. Para alguns processos de criptografia, se u não destinatário decifra uma mensagem codificada por algum método ele é capaz de decifrar qualquer mensagem codificada pelo tal método. Dizemos então que o “código foi quebrado”, código aí sendo utilizado no sentido do método utilizado para a codificação. Provavelmente, o método mais antigo para codificação de mensagens tenha sido o de trocar as letras do alfabeto por outras, de acordo com uma regra preestabelecida. Por exemplo, trocar cada letra pela letra seguinte. Métodos que consistam simplesmente na substituição de letras por outras (ou por outros símbolos) são relativamente fáceis de serem quebrados, facilidade esta em função de que, em qualquer língua, há prevalência de determinados tipos de letra e de combinações das letras. Por exemplo, na nossa língua portuguesa, as vogais são mais freqüentes que as consoantes e, entre aquelas, a letra mais freqüente é a letra A. Em um sistema de criptografia com chave pública, cada usuário publica em uma lista (como a telefônica) um procedimento para os outros usuários cifrar as mensagens que lhe são dirigidas. Cada usuário guarda o seu procedimento para decifrar as mensagens que lhe são enviadas. Em geral, o método de cifrar e decifrar são o mesmo para todos os usuários, variando apenas os parâmetros, que são chamados de chave. Uma desvantagem dos sistemas de criptografia com chave pública conhecidos atualmente é que são bem mais lentos que os “sistemas de criptografia clássicos”. No entanto podem-se combinar os dois e usar o sistema de chave pública para obter apenas parâmetros para usar em um sistema clássico. Modelagem, Personalização, Distribuição e Ferramentas de Desempenho de Serviços de Comércio Eletrônico. 18 BI - Business Intelligence A crescente disponibilização de informações que tem surgido na medida em que mais e mais organizações utilizam-se das ferramentas de Business Intelligence, está fazendo com que apareçam, também, novas necessidades de análise das informações disponibilizadas. Ao contrário do que se possa imaginar, o conceito de Business Intelligence não é recente. Fenícios, persas, egípcios e outros povos do Oriente utilizavam esse princípio há milhares de anos, quando cruzavam informações obtidas junto à natureza em benefício próprio. Observar e analisar o comportamento dasmarés, os períodos de seca e de chuvas, a posição dos astros, entre outras, eram formas de obter informações que eram utilizadas para tomar as decisões que permitissem a melhoria de vida de suas respectivas comunidades. O mundo mudou desde então, mas o conceito permanece o mesmo. A necessidade de cruzar informações para realizar uma gestão empresarial eficiente é hoje uma realidade tão verdadeira quanto no passado o foi descobrir se a alta da maré iria propiciar uma pescaria mais abundante. O interesse pelo BI vem crescendo na medida em que seu emprego possibilita às corporações realizar uma série de análises e projeções, de forma a agilizar os processos relacionados às tomadas de decisão. Pela ótica da tecnologia, a era que podemos chamar de "pré-BI" está num passado não muito distante - algo entre trinta e quarenta anos atrás - quando os computadores deixaram de ocupar salas gigantescas, na medida em que diminuíram de tamanho e, ao mesmo tempo, as empresas passaram a perceber os dados como uma possível e importante fonte geradora de informações. No entanto, naquela época ainda não existiam recursos eficientes que possibilitassem uma análise consistente desses dados para a tomada de decisão. Era possível reunir informações de maneira integrada, fruto de sistemas transacionais estabelecidos com predominância em dados hierárquicos, mas que, reunidos como blocos fechados de informação, permitiam uma visão da empresa, mas não traziam ganhos decisórios ou negociais. Era o final dos anos 60, período em que cartões perfurados, 19 transistores e linguagem COBOL era a realidade da Informática. Era a época em que se via o computador como um desconhecido, um vislumbre de modernidade que mais parecia ser uma realidade distante. O cenário começou a mudar na década de 70, com o surgimento das tecnologias de armazenamento e acesso a dados - DASD (Direct Access Storage Device - dispositivo de armazenamento de acesso direto), e SGBD (Sistema Gerenciador de Banco de Dados) - duas siglas cujo principal significado era o de estabelecer uma única fonte de dados para todo o processamento. A partir daí o computador passou a ser visto como um coordenador central para atividades corporativas e o banco de dados foi considerado um recurso básico para assegurar a vantagem competitiva no mercado. O desenvolvimento tecnológico ocorrido a partir da década de 70 e nos anos posteriores possibilitou a criação de ferramentas que vieram a facilitar todo o processo de captação, extração, armazenamento, filtragem, disponibilidade e personalização dos dados. Com isso, o setor corporativo passou a se interessar pelas soluções de BI, principalmente por volta do final de 1996, quando o conceito começou a ser difundido como um processo de evolução do EIS - Executive Information Systems. O Executive Information System (EIS) é, na verdade, um software que objetiva fornecer informações empresariais a partir de uma base de dados. É uma ferramenta de consulta às bases de dados das funções empresariais para a apresentação de informações de forma simples e amigável, atendendo às necessidades, principalmente, dos executivos da alta administração. Permite o acompanhamento diário de resultados, tabulando dados de todas as áreas funcionais da empresa para depois exibi-los de forma gráfica e simplificada, sendo de fácil compreensão para aqueles que não possuem profundos conhecimentos sobre tecnologia. O EIS permite a esses profissionais o acesso amigável a uma série de informações por meio eletrônico, apresentadas de forma clara e visualmente atraente. A navegação é feita através do uso do mouse ou do sistema "touchscreen" (tela sensível ao toque) o que não requer habilidade, nem prática e nem necessidade de assistência. O principal objetivo do EIS é oferecer ao seu usuário, em curto espaço de tempo, uma visão gerencial da organização, 20 mostrando como funcionam seus processos de trabalho e como ela se relaciona com o mundo externo dos negócios, clientes e fornecedores. As primeiras ferramentas de Business Intelligence surgiram por volta dos anos 70 e se caracterizavam por usar intensa e exaustiva programação, o que exigia altos custos de implementação. Com a evolução tecnológica e o conseqüente surgimento dos bancos de dados relacionais, dos computadores pessoais, das interfaces gráficas, e da consolidação do modelo cliente-servidor, os fornecedores de soluções começaram a colocar no mercado produtos realmente direcionados para os analistas de negócios, bem mais amigáveis e acessíveis para os gerentes e diretores das diferentes áreas da corporação. No início dos anos 90, a maioria das grandes empresas contava somente com Centros de Informação (CI) que embora mantivessem estoque de dados, ofereciam pouquíssima disponibilidade de informação. Mesmo assim, os CIs supriam de certa forma, as necessidades de executivos e detentores das tomadas de decisão, fornecendo relatórios e informações gerenciais. O mercado passou a se comportar de modo mais complexo e a tecnologia da informação progrediu rumo ao aprimoramento de ferramentas de software, as quais ofereciam informações precisas e no momento oportuno para definir ações que tinham como foco a melhoria do desempenho no mundo dos negócios. A história do Business Intelligence também está profundamente atrelada ao ERP (Enterprise Resource Planning) sigla que representa os sistemas integrados de gestão empresarial cuja função é facilitar o aspecto operacional das empresas. Esses sistemas registram, processam e documentam cada fato novo na engrenagem corporativa e distribuem a informação de maneira clara e segura, em tempo real. Mas as empresas que implantaram esses sistemas logo se deram conta de que apenas armazenar grande quantidade de dados de nada valia se essas informações se encontravam repetidas, incompletas e espalhadas em vários sistemas dentro da corporação. Percebeu-se que era preciso dispor de ferramentas que permitissem reunir esses dados numa base única e trabalhá- los de forma a que possibilitassem realizar diferentes análises sob variados ângulos. Por essa razão, a maioria dos fornecedores de ERP passou a embutir em seus pacotes os módulos de BI, que cada vez mais estão se sofisticando. 21 O que esses sistemas têm em comum é a característica de facilitar a transformação dos dados em informações de forma a auxiliar os diversos níveis de uma empresa na tomada de decisões. Na avaliação dos consultores de mercado, não são apenas as grandes corporações que precisam e investem em soluções de BI, mas também as empresas de pequenos e médios portes que cada vez mais necessitam injetar inteligência aos negócios para não perder pontos para a concorrência e, ainda, para visualizar novas oportunidades e para ampliar sua área de atuação. O amadurecimento do conceito e da tecnologia de BI possibilitou o desenvolvimento de uma série de produtos. As ferramentas de front end voltadas para os usuários finais de diferentes áreas da empresa, ficaram mais amigáveis e fáceis de usar. Algumas, inclusive trazem templates (programas prontos e padronizados para uso) que incorporam as melhores práticas de determinados segmentos (financeiro, marketing, vendas, produção, etc.) e de determinadas verticais de mercado (manufatura, varejo, finanças, utilities, etc.) e podem ser utilizadas pelos profissionais dos setores operacionais e não pelos diretores e gerentes. Essas soluções possibilitam, por exemplo, que esses profissionais tenham diferentes visões de uma informação, sem precisar do auxílio do pessoal de TI para isso, o que agiliza a geração de relatóriose as análises. Na avaliação de alguns consultores, utilizar ferramentas de BI para questões operacionais, no entanto, é subutilizar essas soluções e geralmente isso ocorre para sanar alguma deficiência no lado transacional. As ferramentas de BI, segundo defendem os consultores, devem ser empregadas para funções mais nobres e complexas, voltadas para a análise e para a tomada de decisão. Data Warehouse É comum a utilização do Data Mining como uma etapa de um Data Warehouse. Kimball (1996) define Data Warehouse (Armazém de dados) como: “Conjunto de ferramentas e técnicas de projeto, que quando aplicadas às necessidades específicas dos usuários e às bases de dados específicos, permite que seja planejado e construído um armazém de dados”. Outras definições: 22 "Ambiente de suporte à decisão que alavanca dados armazenados em diferentes fontes e os organiza e entrega aos tomadores de decisão" (SINGH, 2001). Um Data Warehouse é uma base de dados histórica da organização, contendo um conjunto de dados baseados em assuntos, integrado, variável em relação ao tempo e não volátil (INMON, 1997). • Orientação por assunto: Assunto é o conjunto de informações relativas à determinada área estratégica de uma empresa. Os dados são organizados por assuntos (não por processos) e por aplicações específicas, obtendo assim informações necessárias para tomadas de decisões. • Integração: Essa característica talvez seja a principal no Data Warehouse, pois através dela padronizamos uma representação única para os dados de todos os sistemas que formarão a base de dados do Data Warehouse. Esses dados geralmente estão armazenados em várias bases operacionais existentes nas empresas. Vários analistas podem ter suas próprias convenções, por exemplo, entre masculino e feminino. Têm-se várias opções de representar, tais como: 'M' e 'F’; 'M' e 'H’; O e 1 e muitas outras representações. Vê-se que são as mesmas informações, mas em formatos diferentes, e essa diferença não pode existir no Data Warehouse. Por isso integram-se os dados, para convencionar de forma uniforme o armazenamento dos dados. • Variação no Tempo: Data Warehouse mantém os dados do histórico por um período muito superior a outros sistemas transacionais. Isso acontece porque o Data Warehouse analisa o comportamento dos dados, para usá-los em comparações, tendências e previsões. 23 • Não Volatilidade: Segundo Inmon (1997), "a maior parte dos dados têm o armazenamento físico radicalmente alterado quando passam a fazer parte do Data Warehouse. Do ponto de vista de integração, não são mais os mesmos dados do ambiente operacional. À luz destes fatores, a redundância de dados entre os dois ambientes raramente ocorre, resultando em menos de um por cento de duplicações". Um Data Warehouse segundo a abordagem de Kimball (1996): • Visão incremental baseados em Data Marts; • Exige mais esforços na fase de extração, transformação e carga; • Os Data Marts possuem menor complexidade e tempo de desenvolvimento; • Modelagem Star-Schema (Modelo Estrela). Um Data Warehouse segundo a abordagem de Inmon (1997): • Estilo tradicional de construção de BD (Banco de Dados); • Forte integração entre todos os dados da empresa; • Modelo único e coeso, mas rígido e de difícil consecução; • Todo o Data Warehouse é construído de uma vez; • Período extenso de desenvolvimento; • Modelagem Snow-Flake. 24 Inmon (1997): - Diz que o DW (Data Warehouse) deve ser modelado o mais normalizado possível, possivelmente utilizando a técnica de entidades e relacionamentos. - Somente os Data Marts devem ser modelados dimensionalmente. Kimball (1996) define Data Mart assim: "Conjunto de ferramentas e técnicas de projeto, que quando aplicadas às necessidades específicas dos usuários e aos bancos de dados específicos permitirá que planejem e construam um Data Warehouse". Conforme Inmon (1997), data marts são subconjuntos de dados da empresa armazenados fisicamente em mais de um local, geralmente divididos por departamento (data marts "departamentais"). Os principais processos envolvidos na construção e manutenção de um data warehouse são segundo Inmon (1997): • Extração dos dados: significa entendimento das bases de dados operacionais disponíveis, bem como compreensão dos seus significados e extração de um conjunto de dados relevantes para o domínio da aplicação; • Transformação dos dados: depois de extraídos, os dados devem sofrer transformações para tornar viável sua leitura, devem ser limpos para garantir a integridade da informação e deve ser feita a verificação da qualidade para assegurar a relevância e veracidade dos dados; • Publicação dos Dados: significa a carga de novos dados no data warehouse oriundos das bases de dados operacionais. Após a carga dos novos dados, os usuários do data warehouse devem ser notificados que novos dados estão disponíveis para acesso; 25 • Acesso: é o processo de recuperação de informação, seja por meio de ferramentas de relatório ou sistemas de suporte à decisão. Ambas as tecnologias acessam os dados através do processamento analítico on- line (On-line Analytical Processing - OLAP); • Backup e Recuperação: detem-se planejar a estratégia de backup e recuperação, analisando as necessidades da aplicação. Entre estas: custo/benefício deste processo, tempo que a base pode permanecer off- line enquanto acontecem estes procedimentos, espaço de armazenamento ocupado pelas cópias de segurança e hardware específico necessário a execução do backup e recuperação. Os Data Marts se diferenciam do Data Warehouse pelos seguintes fatores segundo Inmon (1997): • São personalizados: Atendem às necessidades de um departamento específico ou grupos de usuários; • Menor volume de dados: Por atenderem a um único departamento, armazenam um menor volume de dados; • Histórico limitado: Os Data Marts raramente mantém o mesmo período histórico que um Data Warehouse, que geralmente mantém um histórico de 5 a 10 anos; • Dados sumarizados: Os Data Marts geralmente não mantém os dados no mesmo nível de granularidade do Data Warehouse, ou seja, os dados são, quase sempre, sumarizados quando passam do Data Warehouse para os Data Marts. Junto ao Data Warehouse são usadas ferramentas OLAP. A ferramenta OLAP (on-line analytical processing) oferece algumas funções que, segundo Kimball, (1996) as mais freqüentes são: 26 • Tabelas cruzadas: são nada mais do que as tradicionais planilhas eletrônicas; a diferença reside no fato de que os dados são apresentados em planilhas com mais de duas dimensões, normalmente quatro ou mais; • Drill-down: serve para solicitar uma visão mais detalhada em um conjunto de dados, pode-se dizer que o usuário "mergulha" nos dados; • Roll-up: consiste na operação inversa ao drill-down, ou seja, apresenta os dados cada vez mais agrupados ou sumarizados; • Pivoting: serve para adicionar ou re-arranjar as dimensões das tabelas. • Slide-dice: é a função que faz fixar uma informação de dimensão ou reduzir as dimensões de apresentação dos dados. Kimball (1996) defende que o Data Warehouse deve utilizar a modelagem dimensional e não ER (Entidades e Relacionamentos), pois: 1. Os esquemas relacionais resultantes de uma modelagem tradicional contrariam uma premissa chave em data warehouse que é a recuperação intuitiva e em alto desempenho dos dados; 2. Usuários finais não conseguem entender ou navegarum modelo ER complexo, que pode em alguns casos representar centenas de entidades; 3. Softwares comuns não conseguem aplicar consultas analíticas a modelos relacionais tradicionais de forma eficiente. Otimizadores de consulta que tentam suprir essa deficiência são notórios por efetuar escolhas inadequadas, com grande perda de desempenho; 27 4. Modelos ER não são extensíveis o suficiente para acomodar mudanças nos requisitos de negócio do sistema. Em conseqüência, toda a estrutura de entidades e relacionamentos, bem como as funcionalidades da aplicação nela apoiadas, têm de ser revistas e adaptadas quando da inclusão de novos elementos ou mudança em requisitos de projeto. Em justaposição a essa característica, em ambientes data warehouse os requisitos do usuário estão sujeitos a mudanças constantes, tornando a evolução do esquema conceitual um aspecto primordial para o sucesso do projeto. Uma forte justificativa para a adoção desta política reside na otimização conseguida sobre o processamento de consultas complexas, o que torna o esquema estrela o preferido para a representação de data warehouses (KIMBALL, 1996). Como conseqüência, os projetos tendem a focar em soluções com nítido apelo físico (otimização de consultas, integração de dados heterogêneos, manutenção de visões materializadas, dentre outros aspectos), enquanto se distanciam do correto entendimento dos requisitos do usuário. Inúmeras metodologias têm sido propostas tanto pela comunidade científica quanto pela indústria (KIMBALL, 1996) com o intuito de prover uma visão de mais alto nível ao projeto de aplicações data warehouse. Kimball (1996) coloca, contudo, que os requisitos de negócio dos usuários influenciam quase toda decisão tomada ao longo da implementação do data warehouse. A metodologia criada por kimball (1996) tem como pano de fundo um framework conceitual que descreve uma seqüência de etapas de alto-nível requeridas para o projeto, desenvolvimento e implantação efetivos de um data warehouse. Kimball (1996) acredita que a probabilidade de sucesso de um projeto data warehouse é consideravelmente aumentada se um entendimento consistente dos requisitos dos usuários é estabelecido. Em relação a metodologias similares, a abordagem de Kimball (1996) se destaca pela separação entre requisitos de negócio e projeto físico da aplicação; pela busca da conformidade de requisitos multidimensionais comuns 28 com o modelo corporativo; e pelo uso de sessões de entrevista e reuniões para elicitar, analisar e negociar requisitos de sistema. Uma seqüência de passos, que pode servir de guia para o projeto de repositórios de dados (KIMBALL, 1996). A despeito da preocupação com a separação entre requisitos e aspectos implementacionais, uma especificação em alto nível do sistema somente é obtida (mesmo que parcialmente) na abordagem de Kimball (1996). Em ambientes data warehouse, porém, o dado não é atualizado e sua redundância demonstra ser, ao contrário, um artifício para maximizar a eficiência das consultas ao repositório (KIMBALL, 1996). Esta importante relação entre mineração e data warehouse que, utilizados em conjunto, maximizam os resultados do processo de mineração de dados (KIMBALL, 1996). Mas por outro lado o Data Warehouse limita a atuação do Data Mining, pois esse seleciona os dados de alguma forma, restringindo o domínio e o conhecimento extraído, fazendo restrições em dados de acordo com o domínio pré-definido. As principais transações que compõem uma aplicação data warehouse tendem a obedecer a um esquema de casos de uso (UML) como o representado na figura 1. Figura 1 Template de Casos de Uso em UML para Sistemas Data Warehouse. 29 Na figura 2 é apresentada a visão macro de um sistema Data Warehouse em conjunto com o Data Mining. Figura 2 A figura 3 traz a visão micro (detalhada) do sistema Data Warehouse em conjunto com o Data Mining. 30 Figura 3 31 A figura 4 traz a visão micro (detalhada) do sistema Data Warehouse em conjunto com o Data Mining, com ênfase nas bases de dados. Figura 4 KDD - Data Mining KDD - Data mining é um processo não trivial de identificação de padrões válidos, novos, úteis e implicitamente presentes em grandes volumes de dados. 32 A essência principal do processo de prospecção de conhecimento é constituída pelas técnicas de mineração de dados (Data Mining). Mineração de dados consiste da procura, automática ou semi-automática, em grandes quantidades de dados com o propósito de encontrar padrões importantes, empregando algoritmos com eficiência computacional satisfatória. Enquanto KDD é um processo interativo e iterativo, abrangendo muitas etapas, Data Mining, em particular, é a etapa onde são empregados algoritmos voltados para alcançar metas específicas, gerando uma enumeração particular de padrões nos dados. Deste modo, em um processo completo de descoberta de conhecimento, podem ser empregados vários algoritmos de Data Mining. Efetivamente o Data Mining cumpre o papel de descoberta de conhecimentos. (CARVALHO, 2005). Os problemas que podem ser resolvidos com data mining normalmente são divididos em dois grandes grupos: Predição e Descoberta de Conhecimento. A predição tem a finalidade de atingir um objetivo específico de acordo com casos ocorridos no passado, como o próprio nome já diz, com o objetivo de projetar respostas para novos casos. A descoberta de conhecimento já apresenta uma maior abrangência ao suporte à tomada de decisão. Usa-se para resolver problemas que estão em um estágio antes da predição, ou melhor, onde não se conhece nenhuma informação. As operações diárias geram grandes quantidades de atividades como transações de vendas, sistemas de inventário, procedimentos de cobrança e de atendimento ao cliente. Por exemplo, são dados que quando transformados em informações podem ser usados para aproveitar oportunidades emergentes, ampliar a presença no mercado e auxiliar na tomada de decisões estratégicas - tudo em prol da vantagem competitiva. O desafio está em levar tais informações às mãos das pessoas que conhecem o negócio a fundo, para que possam entender o mercado e sua base de clientes. O data mining alavanca esse patrimônio de dados, transformando-o em informações e as informações em decisões confiáveis. O potencial é imenso. O data mining tem implicações importantes por toda a empresa - na produtividade, lucratividade, satisfação do cliente e na competitividade geral. 33 O conceito de data mining permite às organizações analisar e monitorar ten- dências e variações de seu negócio que fornecem informações para o processo de tomada de decisão. A força impulsionadora que torna o data mining atraente para os usuários finais é o train of thought processing (processamento da linha de pensamento) em que a resposta a uma consulta estimula a próxima pergunta. Esse tipo de investigação requer respostas rápidas, tornando o desempenho um elemento- chave dos sistemas de data mining. Dados operacionais (ou de transação) freqüentemente não estão no formato mais adequado para a garimpagem. Os dados precisam ser limpos, com a correção dos campos incorretos. O processo de limpeza pode ser bastante sofisticado, com um grande volume de informações sobre o negócio codificadas em especificações de limpeza. Campos desnecessários para a análise podem ser omitidos para reduzir o espaço de armazenamento necessário e agilizar o acesso. Talvez seja preciso executar alguma normalização para reduzir a quantidade de dados redundantes.Pode-se também efetuar alguma limpeza independente de domínio, como decisão da estratégia de tratamento de atributos incompletos, remoção de ruído e tratamento de conjunto de exemplos não balanceados. (CARVALHO, 2005). Um dos principais usos atuais da tecnologia de paralelismo é o data mining. O processamento de grandes quantidades de informações, geralmente de forma não-estruturada, sobrecarrega servidores padrão ou mainframes. Isso estimulou organizações comerciais a considerar o uso de tecnologias de paralelismo na esperança de aumentar o poder de processamento para possibilitar o data mining. As recompensas potenciais do data mining são grandes. O uso dessas técnicas, por exemplo, na indústria do varejo, oferece vários exemplos dos benefícios do data mining. Aplicando-se técnicas de paralelismo é possível executar consultas altamente complexas que seriam inimagináveis em qualquer outra plataforma. Isso permite aos usuários refinar sua linha de pensamento, praticamente em tempo real e, para extrair as melhores informações possíveis dos dados. Respostas para esses tipos de consulta podem ser tão importantes que a companhia teria 34 uma vantagem competitiva jamais alcançada, reduzir custos ou aumentar significativamente a receita. Marketing direcionado é outro exemplo do uso de data mining. Examinando grandes quantidades de dados históricos de vendas é possível determinar os prováveis compradores de um determinado produto. Para aquelas companhias que dependem de mala direta ou de vendas por catálogo, isso pode ser muito benéfico. Ao restringir a correspondência a compradores altamente potenciais, o negócio pode atingir altos resultados com custo reduzido. De forma geral, o marketing direcionado não se aplica somente a vendas por catálogo ou mala direta, mas a qualquer companhia que deseja conhecer as preferências de seus consumidores e explorá-las. Isso inclui seguradoras, bancos, incorporadoras e empresas de cartão de crédito. Planilhas multidimensionais e bancos de dados estão se tornando populares para análises que requerem visualização de resumos de dados ao longo de dimensões múltiplas. As tecnologias de data mining executam análises automáticas que podem ajudar a aumentar o valor da exploração dos dados (sumarizações “drill-down” e “drill-up” ao longo de várias dimensões) suportado por ferramentas multidimensionais. Por exemplo, as redes neurais artificiais. (CARVALHO, 2005). Redes neurais vêm sendo aplicadas em alguns aplicativos que envolvem classificação. Entretanto, há a desvantagem de que a rede resultante é visualizada como uma caixa preta, e não é fornecida qualquer explicação sobre os resultados. Outra desvantagem das redes neurais é o longo tempo de aprendizagem, que se torna intolerável no processamento de grandes volumes de dados. O poder habilitador do data mining torna-se mais claro e ainda diz respeito à vi- sualização de dados, o que possibilita um entendimento mais profundo e intuitivo dos dados. O data mining permite que seja focalizado sua atenção em padrões e tendências importantes e os explore minuciosamente usando técnicas de visualização. O data mining e a visualização de dados trabalham muito bem juntos. A visualização de dados sozinha corre o risco de ser sobrecarregada pelo grande volume de dados dos bancos de dados comerciais. 35 O data mining, quando complementado pelas técnicas descritas anteriormente, agrega um valor significativo em relação ao uso das técnicas tradicionais. As técnicas necessárias para gerar esses resultados requerem automaticamente maior largura de banda de I/O e capacidade, e os conjuntos de dados são grandes e precisam ser rastreados rapidamente. Portanto, para um tempo de resposta aceitável, as operações devem ser paralelizadas, e o software e hardware devem suportar esse tipo de processamento. As técnicas de data mining em si requerem uma considerável largura de banda de I/O, alta capacidade de memória principal, poder de processamento e paralelismo escalonável. Os servidores SMP parecem atender a esses requisitos. As tecnologias de data mining são caracterizadas por inúmeros cálculos em grandes volumes de dados. A capacidade de processamento é um fator crítico e o paralelismo é a chave para um data mining significativo. Os sistemas devem ser escaláveis para que seja possível atualizar o sistema à medida que aumenta a demanda de análise, proporcionando melhor tempo de resposta e melhor custo-benefício. A década de 1990 trouxe um crescente problema de supersaturação ao mundo da ciência, dos negócios e do governo. A capacidade de coletar e armazenar dados excedeu em muito a habilidade de analisar, sintetizar e extrair "conhecimento" desses dados. Técnicas clássicas de análise de dados, baseados fundamentalmente no manuseio direto dos dados pelo homem, simplesmente não possibilitam a manipulação de grupos volumosos de dados. Mesmo que a tecnologia de banco de dados tenha oferecido instrumentos básicos para armazenar e analisar com eficiência volumosos grupos de dados, a questão de como auxiliar o homem a compreender e pesquisar esses grupos continua um problema de difícil solução. Para lidar com a supersaturação de dados, se faz necessária uma nova geração de instrumentos inteligentes para extração automatizada de dados e descoberta de conhecimento. Essa necessidade já foi reconhecida por pesquisadores de diversas áreas, inclusive de aprendizado de máquina, estatística, bancos de dados inteligentes, sistemas especialistas, computação neural e visualização de dados. Para serem competitivas na era da informação, as empresas devem estar preparadas para lidar com a avalanche de informações em que se baseiam 36 para tomar decisões-chave do negócio. Hoje em dia, é possível coletar e processar quantidades volumosas de dados em pouquíssimo tempo. Mas uma vez coletados, os dados precisam ser analisados para se determinar sua relevância. A não implementação de sistemas e processos para executar a análise dos dados implicará em desvantagens para essas empresas. À medida que uma maior quantidade de dados torna-se disponível, a técnica para encontrar e extrair informações úteis tornar-se mais difícil. Projetos de Data Mining permitem descobertas inusitadas que podem fazer a diferença diante da concorrência. Na figura 5 tem-se a visão macro do processo de KDD. Figura 5 Visão macro do processo de KDD. Na figura 6 é apresentado um fluxograma detalhado (visão micro) do processo de KDD. 37 Figura 6 Na figura 7 tem-se a estrutura padrão do data mining. 38 Figura 7 Na figura 8 têm-se as abordagens utilizadas no data mining. Figura 8 39 Apesar dessa tecnologia ter uma longa evolução de sua história, o termo como conhecemos hoje só foi introduzido recentemente, nos anos 90. A estatística O Data Mining descende fundamentalmente de três linhagens. A mais antiga delas é a estatística clássica. Sem a estatística não seria possível termos o DM, visto que a mesma é à base da maioria das tecnologias a partir das quais o DM é construído. A Estatística Clássica envolve conceitos como distribuição normal, variância, análise de regressão, desvio simples, análise de conjuntos, análises de discriminantes e intervalos de confiança, todos usados para estudarem dados e os relacionamentos entre eles. Esses são as pedras fundamentais onde as mais avançadas análises estatísticas se apóiam. E sem dúvida, no coração das atuais ferramentas e técnicas de DM, a análise estatística clássica desempenha um papel fundamental. Ela incorporaum envolvimento muito forte do usuário, exigindo engenheiros experientes, para construir modelos que descrevem o comportamento do dado através dos métodos clássicos de matemática. Interpretar os resultados dos modelos requer “expertise” especializada. O uso de técnicas de estatística também requer um trabalho muito forte de máquinas/engenheiros. Inteligência Artificial A segunda linhagem do DM é a Inteligência Artificial, ou IA. Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. Em função desse “approach”, ela requer um impressionante poder de processamento, que era impraticável até os anos 80, quando os computadores começaram a oferecer um bom poder de processamento a preços mais acessíveis. 40 Machine Learning E a terceira e última linhagem do DM é a chamada machine learning, que pode ser mais bem descrita como o casamento entre a estatística e a IA. Enquanto a IA não se transformava em sucesso comercial, suas técnicas foram sendo largamente cooptadas pela machine learning, que foi capaz de se valer das sempre crescentes taxas de preço/desempenho oferecidas pelos computadores nos anos 80 e 90, conseguindo mais e mais aplicações devido às suas combinações entre heurística e análise estatística. A machine learning tenta fazer com que os programas de computador “aprendam” com os dados que eles estudam tal que esses programas tomem decisões diferentes baseadas nas características dos dados estudados, usando a estatística para os conceitos fundamentais, e adicionando mais heurística avançada da IA e algoritmos para alcançar os seus objetivos. De muitas formas, o DM é fundamentalmente a adaptação das técnicas da Machine Learning para as aplicações de negócios. Desse modo, podemos descrevê-lo como a união dos históricos e dos recentes desenvolvimentos em estatística, em IA e Machine Learning. Essas técnicas são usadas juntas para estudar os dados e achar tendências e padrões nos mesmos. Hoje, o DM tem experimentado uma crescente aceitação nas ciências e nos negócios que precisam analisar grandes volumes de dados e achar tendências que eles não poderiam achar de outra forma. Tem-se na figura 9 as técnicas mais usadas de data mining. 41 Figura 9 Técnicas de Data Mining Fonte: (Gartner Group, 2006) Redes Neurais Essa tecnologia é a que oferece o mais profundo poder de mineração, mas é também a mais difícil de entender. As redes neurais tentam construir representações internas de modelos ou padrões achados nos dados, mas essas representações não são apresentadas para o usuário. Com elas, o processo de descoberta de padrões é tratado pelos programas de DM dentro de um processo “caixa-preta”. As ferramentas deveriam, contudo, ser construídas para fazer as decisões ficarem visíveis para os usuários. O problema com esse “approach” é que as decisões são feitas na caixa-preta, o que as faz inexplicáveis. Embora sejam verdadeiro que as redes neurais apresentem o mais avançado poder de mineração, muitos analistas de negócio não podem fazer uso delas porque os resultados finais não podem ser explicados. Estruturalmente, uma rede neural consiste em um número de elementos interconectados (chamados neurônios) organizados em camadas que aprendem pela modificação da conexão firmemente conectando as camadas. Geralmente constroem superfícies equacionais complexas através de interações repetidas, cada hora ajustando os parâmetros que definem a superfície. Depois de muitas repetições, uma superfície pode ser internamente definida que se aproxima muito dos pontos dentro do grupo de dados. A função básica de cada neurônio é: (a) avaliar valores de entrada, (b) calcular o total para valores de entrada combinados, (c) compara o total com um valor 42 limiar, (d) determinar o que será a saída. Enquanto a operação de cada neurônio é razoavelmente simples, procedimentos complexos podem ser criados pela conexão de um conjunto de neurônios. Tipicamente, as entradas dos neurônios são ligadas a uma camada intermediária (ou várias camadas intermediárias) que é então conectada com a camada de saída. Para construir um modelo neural, primeiramente "adestra-se" a rede em um data set de treinamento e então usamos a rede já treinada para fazer predições. Nós podemos, às vezes, monitorar o data set durante a fase de treinamento para checar seu progresso. Cada neurônio geralmente tem um conjunto de pesos que determina como o neurônio avalia a combinação dos sinais de entrada. A entrada para um neurônio pode ser positiva ou negativa. O aprendizado se faz pela modificação dos pesos usados pelo neurônio em acordo com a classificação de erros que foi feita pela rede como um todo. As entradas são geralmente pesadas e normalizadas para produzir um procedimento suave. Durante a fase de treinamento, a rede estabelece os pesos que determinam o comportamento da camada intermediária. Um termo popular chamado "backpropagation" (propagação realimentada) é usado quando os pesos são ajustados baseados nas estimativas feitas pela rede - suposições incorretas reduzem os limites para as conexões apropriadas. Indução de Regras A Indução de Regras, ou Rule Induction, se refere à detecção de tendências dentro de grupos de dados, ou de “regras” sobre o dado. As regras são, então, apresentadas aos usuários como uma lista “não encomendada”. Por exemplo, a tradução das regras para dentro de um modelo aproveitável é feito pelo usuário, ou por uma interface de árvores de decisão. Do ponto de vista do usuário, o maior problema com as regras é que o programa de DM não faz o ranking das regras por sua importância. O analista de negócio é então forçado a encarregar-se de criar um manual de análise para todas as regras relatadas a fim de determinar aquelas que são mais importantes no modelo de DM, e para os assuntos de negócio envolvidos. E isso pode ser um processo tedioso. 43 Árvores de decisão As árvores de decisão são uma evolução das técnicas que apareceram durante o desenvolvimento das disciplinas de machine learning. As árvores de decisão são meios de representar resultados de DM na forma de árvore, e que lembram um gráfico organizacional horizontal. Dados um grupo de dados com numerosas colunas e linhas, uma ferramenta de árvore de decisão pede ao usuário para escolher uma das colunas como objeto de saída, e aí mostra o único e mais importante fator correlacionado com aquele objeto de saída como o primeiro ramo (nó) da árvore de decisão. Os outros fatores são subseqüentemente classificados como nós do(s) nó(s) anterior(es). Isso significa que o usuário pode rapidamente ver qual o fator que mais direciona o seu objeto de saída, e o usuário pode entender porque o fator foi escolhido. Uma boa ferramenta de AD vai, também, permitir que o usuário explore a árvore de acordo com a sua vontade, do mesmo modo que ele poderá encontrar grupos alvos que lhe interessem mais, e aí ampliar o dado exato associado ao seu grupo alvo. Os usuários podem, também, selecionar os dados fundamentais em qualquer nó da árvore, movendo-o pra dentro de uma planilha ou outra ferramenta para análise posterior. As árvores de decisão são, quase sempre, usadas em conjunto com a tecnologia de Indução de Regras, mas são únicas no sentido de apresentar os resultados da Indução de Regras num formato com priorização. Então, a regra mais importante é apresentada na árvore como o primeiro nó, e as regras menos relevantes são mostradas nos nós subseqüentes.As vantagens principais das árvores de decisão são que elas fazem decisões levando em consideração as regras que são mais relevantes, além de serem compreensíveis para a maioria das pessoas. Ao escolher e apresentar as regras em ordem de importância, as árvores de decisão permite aos usuários ver, na hora, quais fatores mais influenciam os seus trabalhos. Análise Estatística de Séries Temporais A análise de séries temporais é freqüentemente confundida como um gênero mais simples de DM chamado forecasting previsão. Enquanto que a análise de séries temporais é um ramo altamente especializado da estatística, o “forecasting” é de fato uma disciplina muito 44 menos rigorosa, que pode ser satisfeita, embora com menos segurança, através da maioria das outras técnicas de DM. Visualização As técnicas de Visualização são um pouco mais difíceis de definir, porque muitas pessoas a definem como “complexas ferramentas de visualização”, enquanto outras como simplesmente a capacidade de geração de gráficos. Nos dois casos, a Visualização mapeia o dado sendo minerado de acordo com dimensões especificadas. Nenhuma análise é executada pelo programa de DM além de manipulação estatística básica. O usuário, então, interpreta o dado enquanto olha para o monitor. O analista pode pesquisar a ferramenta depois para obter diferentes visões ou outras dimensões. Vê-se na figura 10 o template de caso de uso em UML para as etapas operacionais do processo de KDD. Figura 10 Etapas Operacionais do Processo de KDD. Vê-se na figura 11 o diagrama de atividades em UML das abordagens para seleção de atributos em problemas de classificação. 45 Figura 11 Abordagens para Seleção de Atributos em Problemas de Classificação. Algoritmo K-MEANS (Clustering): Uma das técnicas existentes de clusterização é o k-means, onde k seria o número de classes no qual se deseja agrupar. O algoritmo k-means, também denominado Clustering (traduzido para o português como Aglomeração ou Clusterização) ou, ainda, K-Nearest Neighboor, é um algoritmo muito conhecido e utilizado. Seu processo consiste em estabelecer um número máximo de clusters que se deseja obter. O algoritmo busca então a melhor maneira de separar o conjunto de dados. O algoritmo K-means funciona com método de particionamento, que organiza os objetos da base de dados em k partições onde cada partição representa um cluster. O método do k-means apresenta (esquemas diferentes, inicialização, otimização, média harmônica e extensões). 46 Como o pesquisador não tem como saber um número ótimo para k, faz-se necessário a execução dessa técnica várias vezes, parando quando perceber- se que as classes são as desejadas. • Pontos Fortes: Relativamente eficiente: O (tkn), onde n é número de objetos, k é número de grupos, e t é número de iterações. Normalmente, k, t << n. Freqüentemente termina em um ótimo local. O ótimo global pode ser encontrado usando técnicas tais como: deterministic annealing e algoritmos genéticos. • Pontos Fracos: É necessário especificar a priori k, o número de grupos. Não trata ruídos e desvios. Não é apropriado para a descoberta de grupos não esféricos. Algumas variantes do k-means diferem em: • Seleção das k medias iniciais • Calculo das dissimilaridades • Estratégias para calcular as médias dos grupos Com isso o algoritmo K-means também foi aplicado para a comparação dos resultados e apresentou resultados satisfatórios que foram utilizados nesse trabalho. O funcionamento desse algoritmo está descrito abaixo de maneira simplória: • Entrar com número de clusters (k) • Escolher aleatoriamente k objetos • Definir os k objetos como centros dos clusters 47 • Fazer associar cada objeto ao cluster que lhe é mais similar • Recalcular os pontos centrais de cada cluster enquanto haja alteração nos pontos centrais dos clusters No algoritmo K-means são definidos centros k, que originarão k clusters onde k é a média numérica entre os valores numéricos dos atributos. Então, a medida de similaridade utilizada pelo K-means é a média entre os valores numéricos. No uso da técnica de segmentação, não existe um conjunto de dados pré- definidos, isto caracteriza o uso de um método de aprendizado não- supervisionado, onde o algoritmo possui maior autonomia na execução. Na segmentação, são encontradas as classes e então são definidas as classificações de cada grupo. Um ponto que pode ser visto como negativo por algumas aplicações é a necessidade do algoritmo k-means de que o usuário indique quantos devem ser os clusters. O algoritmo k-means também não é satisfatório no descobrimento de clusters de formas não-convexas e de tamanhos muitos diferentes. A figura 12 apresenta o diagrama de atividades em UML do funcionamento do algoritmo K-means. 48 Figura 12 Algoritmo K-Means. Metodologia Seis Sigma A preocupação com a qualidade é tão antiga quanto a própria humanidade. Desde que o homem pré-histórico confeccionou o seu primeiro artefato, surgiu à preocupação com a adequação do uso do produto às necessidades de quem o utiliza. Entretanto, o moderno Controle da Qualidade, ou seja, calculado em bases científicas, data do início do século XX. Foi somente com a introdução do 49 conceito de produção em massa que a qualidade começou a ser abordada sob uma ótica diferente. Com base na norma NBR ISO 9000:2000, define-se processo como um conjunto de atividades inter-relacionadas ou interativas que transformam insumos (entradas) em produtos (saídas). Controle Estatístico do Processo (CEP) pode ser definido como um conjunto de ferramentas que tem o propósito de indicar se um processo está funcionando de forma ideal, quando apenas causas comuns de variação estão presentes, ou se este processo está desordenado, e necessita de algum tipo de ação corretiva, ou seja, quando existem causas especiais de variação. A Metodologia Seis Sigma é baseada em um sistema de acompanhamento conhecido como DMAIC, sigla que denota as seguintes etapas: Definir (Define), Medir (Measure), Analisar (Analyze), Melhorar (Improve) e Controlar (Control). A letra grega minúscula sigma (σ) é o símbolo estatístico para desvio padrão, que é uma medida de variabilidade de um processo. O símbolo pode ser usado como um nível de indicação de desempenho, sendo que quanto maior o nível sigma, melhor é o processo. Conforme norma NBR ISO 9000:2000 capacidade é definida como a aptidão de uma organização, sistema ou processo de realizar um produto que irá atender aos requisitos especificados para este produto. A idéia básica é a de simplificar e racionalizar uma variedade de procedimentos necessários à manufatura, desde o projeto, o planejamento de aquisição de material, planejamento de processo, preparação de máquinas para produção (set up), a fabricação e o controle de qualidade. Conclusão As empresas precisam elaborar estratégias, traduzi-las em ação diária e garantir uma integração constante e efetiva entre definição e ação. As empresas precisam conseguir direcionar seus colaboradores para atender da melhor maneira possível ao cliente. Conhecer o que acontece com as empresas e compreender como ocorre o fluxo de informações e a gestão de seus processos é fundamental para fazer este direcionamento corretamente. 50 O conhecimento da empresa e do negócio passou a ser fundamental para definir e acompanhar as etapas e estratégias mais adequadas em cada situação. A necessidade de perceber os acontecimentos externos à
Compartilhar