Buscar

Gestão de Risco - Data Mining

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 14 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE NOVE DE JULHO - UNINOVE
GESTÃO DE RISCOS EM SEGURANÇA DA INFORMAÇÃO
UTILIZANDO DATA MINING PARA REALIZAÇÃO DE ANÁLISE DE RISCO
Prof. Adriano Correa
 Alan Sanches RA: 616101829
Erick Avelino RA: 616101656
José Acácio Silva	 RA: 615204896
Felipe Fernandes Viana RA: 615207162
Lucas Silva de Oliveira RA: 413107601
Sumário
1.	O que é Data Mining	3
1.1. As técnicas da mineração de dados	3
1.2. O escopo da Mineração de Dados	4
1.3. Como a mineração de dados funciona	5
2. Análise SWOT para adoção de Data Mining	6
3. Características de detecção em tempo real	7
4. Métodos de classificação a partir de uma base de dados recente	8
4.1. Análise Preditivo	8
4.2. Classificação de dados	8
4.3. Associações	9
5. Segurança e Ações para prevenir intrusão	9
6. Protocolo, Trafego e riscos	9
7. Ataques	10
8. Anomalias	10
9. Referências	11
1. O que é Data Mining
A mineração de dados ou Data Mining, é a extração de informações preditivas escondidas em grandes bancos de dados, é uma poderosa tecnologia nova com grande potencial para auxiliar as empresas a se concentrarem nas informações mais importantes em seus data warehouses. As ferramentas de mineração de dados preveem tendências e comportamentos futuros, permitindo que as empresas tomem decisões proativas e baseadas no conhecimento. 
As análises automatizadas e prospectivas oferecidas pela mineração de dados vão além das análises de eventos passados ​​fornecidas por ferramentas que usam a retrospectiva típica dos sistemas de tomada de decisão. Ferramentas de mineração de dados podem responder as perguntas de negócios que tradicionalmente eram muito demoradas para serem resolvidas. 
Eles vasculham bancos de dados para procurar por padrões ocultos, encontrando informações preditivas que os especialistas podem deixar passar, porque está fora de suas expectativas.
A maioria das empresas já coletam e refinam enormes quantidades de dados. As técnicas de mineração de dados podem ser implementadas rapidamente em plataformas de software e hardware existentes para aumentar o valor dos recursos de informação existentes e podem ser integradas com novos produtos e sistemas à medida que são colocados on-line. Quando implementadas em computadores client / server ou de processamento paralelo de alto desempenho, as ferramentas de mineração de dados podem analisar bancos de dados maciços para fornecer respostas a perguntas como: "Quais clientes têm mais probabilidade de responder ao meu próximo mail promocional e por quê?"
1.1. As técnicas da mineração de dados
As técnicas de mineração de dados são o resultado de um longo processo de pesquisas e desenvolvimento de produtos. Esta evolução começou quando os dados dos negócios foram inicialmente armazenados em computadores, continuaram com melhorias no acesso a dados e, mais recentemente, geraram tecnologias que permitem aos usuários navegar por seus dados em tempo real. 
A mineração de dados leva esse processo evolutivo para além do acesso e da navegação retrospectiva de dados à entrega prospectiva e proativa de informações. A mineração de dados está pronta para ser aplicada na comunidade de negócios porque é suportada por três tecnologias que agora estão suficientemente maduras:
· Coleta massiva de dados
· Poderosos computadores multiprocessadores
· Algoritmos de mineração de dados
As bases de dados comerciais estão crescendo a taxas sem precedentes. 
Um levantamento recente do META Group sobre os projetos de data warehouse descobriu que 19% dos entrevistados estão além do nível de 50 gigabytes, enquanto 59% esperam estar lá no segundo trimestre de 1996.
Em alguns setores, como o varejo, esses números podem ser muito maiores. A necessidade acompanhante de motores computacionais melhorados pode agora ser sustentada de uma forma rentável com a tecnologia de computador com multiprocessador paralelo. Os algoritmos de mineração de dados incorporam técnicas que existem há pelo menos 10 anos, mas que recentemente foram implementadas como ferramentas maduras, confiáveis ​​e compreensíveis que superam consistentemente métodos estatísticos mais antigos.
Na evolução de dados de negócios para informações de negócios, cada nova etapa foi construída sobre a anterior. Por exemplo, o acesso dinâmico a dados é crítico para drill-through em aplicativos de navegação de dados, e a capacidade de armazenar grandes bancos de dados é fundamental para a mineração de dados. 
1.2. O escopo da Mineração de Dados
A mineração de dados deriva seu nome das semelhanças entre a busca de informações comerciais valiosas em um grande banco de dados - por exemplo, encontrar produtos vinculados em gigabytes de dados de um scanner de loja - e mineração de uma montanha para uma veia de minério valioso. Ambos os processos requerem peneiramento através de uma imensa quantidade de material, ou inteligentemente sonda-lo para encontrar exatamente onde o valor reside. 
Dados bancos de dados de tamanho e qualidade suficientes, a tecnologia de mineração de dados pode gerar novas oportunidades de negócios, fornecendo os recursos abaixo:
- Previsão automatizada de tendências e comportamentos: A mineração de dados automatiza o processo de encontrar informações preditivas em grandes bancos de dados. Questões que tradicionalmente exigiam extensa análise prática agora podem ser respondidas diretamente pelos dados, rapidamente. Um exemplo típico de um problema preditivo é o marketing direcionado. A mineração de dados usa dados sobre correspondências promocionais anteriores para identificar os destinos mais propensos a maximizar o retorno sobre o investimento em envios futuros. Outros problemas preditivos incluem previsão de falência e outras formas de inadimplência e identificação de segmentos de uma população que provavelmente responderão de forma semelhante a determinados eventos.
- Descoberta automatizada de padrões desconhecidos: Como ferramentas de mineração de dados, existem bancos de dados e identificam padrões previamente ocultos em uma única etapa. Um exemplo de descoberta de padrão é uma análise de dados de vendas, sem varejo, para identificar produtos aparentemente não relacionados que são muitas vezes comprados em conjunto. Outros problemas de descoberta de padrões incluem uma detecção de transações de cartão de crédito fraudulentas e uma identificação de dados anómalos que representam erros de digitação de entrada de dados.
As técnicas de mineração de dados podem render os benefícios da automação em plataformas existentes de software e hardware e podem ser implementadas em novos sistemas à medida que as plataformas existentes são atualizadas e novos produtos desenvolvidos. Quando as ferramentas de mineração de dados são implementadas em sistemas de processamento paralelo de alto desempenho, eles podem analisar bancos de dados maciços em minutos. Processamento mais rápido significa que os usuários podem experimentar automaticamente mais modelos para entender dados complexos. Alta velocidade torna prático para os usuários a analisar enormes quantidades de dados. Os bancos de dados maiores, por sua vez, produzem melhores previsões.
As técnicas mais utilizadas na mineração de dados são:
Redes neurais artificiais: modelos preditivos não-lineares que aprendem através do treinamento e se assemelham a redes neurais biológicas na estrutura.
Árvores de Decisão: Estruturas em forma de árvore que representam conjuntos de decisões. Essas decisões geram regras para a classificação de um conjunto de dados. Os métodos de árvore de decisão específicos incluem Árvores de Classificação e Regressão (CART) e Detecção Automática de Interacção de Chi (CHAID).
Algoritmos genéticos: técnicas de otimização que utilizam processos como combinação genética, mutação e seleção natural em um desenho baseado nos conceitos de evolução.
Método de vizinho mais próximo: Uma técnica que classifica cada registro em um conjunto de dados com base em uma combinação das classesdo registro(s) k mais semelhante a ele em um conjunto de dados históricos (onde k³ 1). As vezes chamado de técnica k-vizinho mais próximo.
Indução de regras: A extração de regras if-then úteis a partir de dados baseados em significância estatística.
Muitas dessas tecnologias estão em uso há mais de uma década em ferramentas de análise especializada que trabalham com volumes de dados relativamente pequenos. Esses recursos estão evoluindo para se integrar diretamente às plataformas de data warehouse e OLAP padrão do setor. 
1.3. Como a mineração de dados funciona
Modelagem é simplesmente o ato de construir um modelo em uma situação onde você sabe a resposta e, em seguida, aplicá-la a outra situação que você não sabe. Por exemplo, se você estivesse procurando um galeão espanhol afundado no alto mar, a primeira coisa que você poderia fazer é pesquisar os tempos em que o tesouro espanhol havia sido encontrado por outros no passado. Você pôde anotar que estes navios tendem frequentemente a ser encontrados fora da costa de Bermuda e que há determinadas características às correntes do oceano, e determinadas rotas que foram prováveis ​​tomadas pelos capitães do navio nessa era. Você observa estas similaridades e constrói um modelo que inclua as características que são comuns aos locais destes tesouros afundados. Com estes modelos na mão você navega fora procurando o tesouro onde seu modelo indica que o mais provável pôde ser dado uma situação similar no passado. Esperançosamente, se você tem um bom modelo, você encontra seu tesouro.
Este ato de construção de modelo é, portanto, algo que as pessoas têm vindo a fazer por um longo tempo, certamente antes do advento dos computadores ou tecnologia de mineração de dados. O que acontece em computadores, no entanto, não é muito diferente do modo como as pessoas constroem modelos. Os computadores são carregados com muitas informações sobre uma variedade de situações onde uma resposta é conhecida e, em seguida, o software de mineração de dados no computador deve executar através de dados e destilar as características dos dados que devem entrar no modelo. Uma vez que o modelo é construído, ele pode ser usado em situações semelhantes onde você não sabe a resposta. Por exemplo, digamos que você é o diretor de marketing de uma empresa de telecomunicações e gostaria de adquirir alguns novos clientes de telefonia de longa distância. Você poderia apenas aleatoriamente sair e enviar cupons para a população em geral - assim como você poderia aleatoriamente velejar os mares procurando tesouro afundado. Em nenhum dos casos você obter os resultados desejados e, claro, você tem a oportunidade de fazer muito melhor do que aleatória - você poderia usar sua experiência de negócios armazenados em seu banco de dados para construir um modelo.
Como diretor de marketing, você tem acesso a muitas informações sobre todos os seus clientes: idade, sexo, histórico de crédito e uso de chamadas de longa distância. A boa notícia é que você também tem um monte de informações sobre seus potenciais clientes: sua idade, sexo, histórico de crédito etc. Seu problema é que você não sabe o uso de longa distância de chamadas dessas perspectivas. Você gostaria de se concentrar nas perspectivas que têm grandes quantidades de uso de longa distância. Você pode fazer isso construindo um modelo. 
2. Análise SWOT para adoção de Data Mining
A análise SWOT é uma abordagem estruturada para avaliar os pontos fortes, fracos, oportunidades e ameaças envolvidas em um produto, projeto, pessoa, empreendimento comercial ou indústria (Humphrey, 2005). Baseado em documentais que já fizeram antes, esta parte tentará especificar o ambiente interno, características e elementos do ambiente externo, considerando o impacto das tecnologias de mineração e contabilidade gerencial e administração de empresas, a fim de auxiliar o alinhamento de negócios e tecnologia.
Na tabela abaixo, demonstramos através da análise SWOT, o processo de adoção de Data Mining por uma empresa.
	Pontos Fortes
	Pontos Fracos
	Oportunidades
	Ameaças
	Ambiente colaborativo
	Integração com AIS e ou MIS
	Melhorias Tecnológicas
	Manutenção de sistemas
	Redução de Custo
	Coleta de Dados
	Reengenharia de processos administrativos
	Perda de dados, privacidade de dados
	Análise e Extração de Informação
	Armazenamento de dados, migração de dados
	Sistema de apoio à decisão
	Segurança
3. Características de detecção em tempo real
O termo Tempo Real é usado para descrever o quão bem um algoritmo de Mineração de dados pode acomodar uma carga de dados cada vez maior instantaneamente. Atualizar mineração de dados convencional para mineração de dados em tempo real é através do uso de um método denominado Máquina de Aprendizagem em Tempo Real ou RTLM. O uso do RTLM com métodos de mineração de dados convencionais permite a Mineração de Dados em Tempo Real. O futuro da modelagem preditiva pertence à mineração de dados em tempo real e a principal motivação na criação deste tópico é ajudá-lo a entender o método e a implementá-lo para suas aplicações.
O grande volume de dados, gerado em alta velocidade nos traz um novo cenário com muito mais desafios. Não faz mais sentido aguardar resultados de sistemas analíticos que levem semanas, dias ou mesmo horas para retornar resultados. O processo analítico está sendo reduzido para minutos, segundos ou mesmo frações de segundo. Alguns anos atrás, gerar um relatório analítico em 40 minutos, era considerado um grande feito. Hoje, esperamos que estes mesmos relatórios gerem resultado em menos de um minuto, mesmo com o volume de dados muito maior. É como gerar análise de dados com a velocidade do pensamento. Análise de dados em tempo real.
Real-Time Big Data Analytics (RTBDA) é a habilidade de tomar melhores decisões e gerar ações de forma mais rápida e no momento certo. É a habilidade de detectar fraudes em cartões de crédito no momento que ele está sendo usado no ponto de venda ou recomendar um produto a um usuário, segundos depois que ele efetue um clique no website. RTBDA é analisar os dados em tempo real, de forma a permitir a ação correta, no tempo correto e no local correto. Real-Time Big Data Analytics é a chave para aumentar vendas e reduzir custos. É uma nova era, na qual as máquinas são capazes de pensar e responder como os humanos
Quando RTBDA é dividido em sua forma mais simples, o Big Data Analytics compreende duas partes que o diferenciam do data warehousing e business intelligence:
· Atuando em tempo real
· Processamento distribuído e paralelo
O Big Data Analytics aborda o desafio de processar grandes conjuntos de dados não relacionados que geralmente não podem ser alojados por um único servidor ou banco de dados. Esse problema pode ser resolvido através do uso de processamento paralelo distribuído onde grandes conjuntos de dados estão dispersos entre vários servidores. Cada servidor processa uma porção do conjunto de dados em paralelo. O Big Data Analytics pode trabalhar com dados estruturados e não estruturados, já que não requer uma estrutura específica. Um exemplo de tal abordagem seria usar Hadoop com MapReduce, que também pode ser identificado como a influência por trás da concentração de hoje em grandes dados.
Embora existam atualmente soluções para o processamento de grandes quantidades de dados, o Big Data restringe processamento para permitir a conclusão dentro de um prazo especificado. Agora mais do que nunca, esse cronograma está se tornando cada vez mais associado ao "tempo real".
Apesar de RTBDA ser um conceito relativamente novo, ele aborda a demanda para agir de forma proativa ou reativa em tempo real. É motivado pela capacidade de conteúdo da Internet e prestadores de serviços para entender o que está acontecendo, analisar a situação e agir em tempo real.
4. Métodos de classificação a partir de uma base de dados recente
As técnicas de mineração de dados procuram identificar relações entre a variável de interesse e as variáveis em uma amostra de dados. Existem pelo menos 3 modelos de análisepara mineração de dados que consideramos aqui para a classificação de dados recentes para tomada de decisão mais rápida, porém não tão instantânea quanto ao capítulo 3 deste trabalho.
4.1. Análise Preditivo
Os valores para a variável de interesse (por exemplo, o número de visitantes do site a cada mês) são comparados com os valores de outras variáveis do conjunto de dados (por exemplo, o mês do ano e a soma gastada em publicidade nos últimos meses). 
O método de regressão resultaria em um modelo ajustado, que é uma equação que expressa o número previsto de visitantes mensais como uma combinação linear das outras variáveis no conjunto de dados (sistema de equações lineares), com pesos determinados pela análise de regressão da amostra de dados. Esta inteligência de negócios prevê o tráfego futuro do site e é capaz de auxiliar nas decisões como se invocar serviços de marketing adicionais ou quando mover para servidores de alta velocidade.
4.2. Classificação de dados
A classificação é outro campo para o qual a mineração de dados está envolvida. Um exemplo pode ser as decisões de empréstimo enfrentadas pelos credores. 
Bancos ou outras instituições de crédito regularmente coletar dados de candidatos de empréstimo, em que eles baseiam sua decisão ou não para estender crédito. O objetivo é classificar os candidatos como bons ou maus riscos de crédito.
A exploração de dados aqui seria usada para identificar relações entre o registro de pagamento e outras variáveis na amostra de dados, relacionamentos que então formariam a base de uma "receita" para classificar futuros candidatos. A "receita" mais comum é uma árvore de decisão. 
Para conversões de visitantes, a mineração de dados estabelece relações entre a taxa de conversão e as páginas do site visitadas, ou o tempo médio gasto, ou algumas outras variáveis. Quando a árvore de decisão é formada, esta "receita" pode ser aplicada, com alguma taxa de erro, aos novos visitantes do site, analisando seu comportamento quanto à previsão de conversões.
4.3. Associações
Quais são as relações interessantes entre as variáveis que observamos? O exemplo canônico é a famosa "cesta de compras" pergunta que pergunta quais itens tendem a aparecer juntos nas compras feitas pelos clientes.
Outro aplicativo quanto à análise de tráfego da web é se há ou não grupos de páginas que os usuários tendem a visitar juntos? A presença de tais grupos pode dar a um proprietário do Web site a introspecção valiosa em como os povos usam o local. Por exemplo, o conteúdo dividido em páginas separadas, mas ainda frequentemente visto em conjunto, pode ser mesclado para obter a experiência de navegação mais lisa e rápida e as páginas do site visitadas apenas para alcançar outras páginas mais importantes podem ser removidas.
5. Segurança e Ações para prevenir intrusão
As ameaças de adoção de tecnologias de mineração de dados são as seguintes. Quanto à recolha de informações entre a gestão da cadeia de valor, as questões relativas à perda de dados e à privacidade devem ser tidas em conta. O backup, recuperação de dados e estratégias e princípios de confidencialidade são necessários antes da integração de novas tecnologias. Além disso, a manutenção e a segurança dos sistemas de TI são as principais preocupações também.
Devemos nos preocupar com a prevenção de intrusão em um processo da mineração de dados da mesma maneira que devemos nos preocupar com o vazamento de informação em nossa empresa, sempre claro, utilizando as melhores práticas do mercado.
6. Protocolo, Trafego e riscos
Os tamanhos de conjunto de dados estão crescendo exponencialmente, por isso é importante usar os protocolos de transferência de dados mais eficiente disponível. A maioria das ferramentas de transferência de dados TCP sobre soquetes, limitam os fluxos para cerca de 20Gbps utilizando os Hardwares de hoje. 
RDMA (Remote Direct Memory Access) sobre Ethernet Convergente (RoCE) é uma nova tecnologia promissora para redes de alto desempenho e transferência de dados com impacto mínimo na CPU sobre circuitos de Infraestruturas. Há comparações no desempenho de TCP, UDP, UDT e RoCE sobre alta latência nas redes de 10Gbps e 40Gbps, e mostram que as transferências de dados baseadas em RoCE são as únicas que consegue alcançar e com o mínimo de impacto um caminho de 40Gbps usando muito menos CPU do que outros protocolos.
7. Ataques
A batalha para proteger dados privados, que sejam informações financeiras ou propriedade intelectual, pode ser conquistada através de uma grande análise de dados.
Isso, de qualquer forma, é o que pensa Bob Griffin, o principal arquiteto de segurança da RSA.
"A capacidade de tirar enormes volumes de informações e obter inteligência disso vai mudar radicalmente o que estamos fazendo como profissionais de segurança", disse Griffin ao The Jerusalem Post no evento anual da empresa matriz da RSA EMC em Las Vegas na semana passada.
Como a tecnologia se desenvolve, novas áreas de risco de segurança emergem, como proteger dados armazenados fora do local - na nuvem. Mas também a capacidade de rastrear tudo, desde o número de tentativas de login até o valor dos ativos são acessados.
Analisar essas informações pode ajudar a levantar o alarme em tempo real quando algo fora do comum está acontecendo, como pode ser o caso em uma violação de segurança.
Há coisas que nós, como intelectuais humanos, temos problemas em abstrair dados. 
8. Anomalias
Há padrões na informação, nos bons padrões e nas anomalias. É difícil evitar vazamento de informações potencialmente sensíveis sobre o empregador em seu currículo, por exemplo. Explicar sua experiência e habilidades no mundo da TI geralmente envolve nomear as tecnologias com as quais você trabalhou. 
Essas informações podem ajudar os invasores de computador a relacionar seus destinos, revelando detalhes sobre as medidas de segurança que podem precisar ignorar.
9. Referências
08/11/2016 17:45 - Pesquisa Online no site: http://www.devmedia.com.br/data-mining-novos-recursos-nos-sistemas-de-banco-de-dados/5892
08/11/2016 17:55 - Pesquisa Online no site: http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm
08/11/2016 19:12 - Pesquisa Online no site: http://utd.edu/~bxt043000/Publications/Conference-Papers/DAS/C99_Data_Mining_for_Security_Applications.pdf
08/11/2016 19:31 - Pesquisa Online no site: https://www.cs.rutgers.edu/~rwright1/Publications/madnes05.pdf
08/11/2016 15:07 - Pesquisa Online no site: http://fluxicon.com/blog/wp-content/uploads/2015/01/wakup.pdf
1

Continue navegando