Buscar

Detecção inteligente

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Detecção inteligente: uma abordagem on-line para detecção de ataques DoS / DDoS usando aprendizado de máquina
Introduction
Nos últimos anos, ataques distribuídos de negação de serviço (DDoS) causaram perdas financeiras significativas para a indústria e os governos em todo o mundo, conforme mostrado nos relatórios de segurança da informação [1]. Esses registros estão alinhados com o crescente número de dispositivos conectados à Internet, impulsionados especialmente pela popularização da computação ubíqua, materializada pelo paradigma da Internet of ings (IoT) [2] e caracterizada pelo conceito de conectar qualquer coisa, em qualquer lugar, a qualquer momento. Na maioria dos cenários da Internet, os dispositivos interagem com aplicativos executados remotamente na rede, o que permite que agentes maliciosos assumam o controle dos dispositivos. Dessa forma, é possível ter a interrupção dos serviços ou o uso de dispositivos como ponto de partida de ataques para diversos domínios, como é o caso do ataque DDoS [3], consolidado por vários motivos, como (i) simplicidade e facilidade de execução, sem exigir amplo conhecimento tecnológico do lado do atacante; e (ii) variedade de plataformas e aplicativos para facilitar a orquestração de ataques. Muitos desses ataques conseguiram interromper serviços essenciais da Internet, como DNS, afetando milhões de usuários em todo o mundo [4], e plataformas comerciais, como o GitHub [5], provocando graves perdas financeiras para as organizações que dependem desses serviços.
Um dos traços maliciosos mais perigosos da Internet é o ataque volumétrico DDoS, responsável por mais de 65% de todos esses ataques [6]. Em um ataque volumétrico de DDoS, vários atacantes coordenam o envio de uma alta taxa de dados inúteis na tentativa de sobrecarregar os recursos de computação da vítima ou os links de rede próximos. Por um lado, as altas taxas de sucesso desse tipo de ataque ocorrem porque os principais roteadores da Internet geralmente usam as disciplinas de enfileiramento FIFO (primeiro a entrar, primeiro a sair) e DROP-TAIL, que não diferenciam os tipos de tráfego. ,C, impondo taxas iguais de perda para ataques e tráfego legítimo. Embora o tráfego legítimo tenda a recuar para evitar mais congestionamentos, o tráfego de ataque não tem esse compromisso e faz com que os links sejam excedidos. Como conseqüência, o tráfego legítimo também é obstruído [6]. Por outro lado, os atacantes estão usando técnicas mais avançadas para potencializar ataques e ¢ inundar a vítima, como ataques DDoS de aluguel, DDoS baseados em IoT e ataques DDoS de reflexão [7–9], lucrando com a capacidade computacional e distribuição geográfica promovida pela grande variedade de dispositivos e seus diversos padrões de mobilidade, geralmente baseados em cenários de IoT e de IoT móvel.
Além do ataque volumétrico de DDoS, ataques de baixo volume estão no radar de especialistas em segurança. É um ataque mais furtivo que usa poucos hosts invasores; os eventos são rápidos, às vezes durando apenas alguns minutos e geralmente menos de uma hora. Por esses motivos, as equipes de segurança não sabem que seus sites estão sendo atacados porque ferramentas comuns não detectam esse tipo de ameaça [10]. Normalmente, o DDoS de baixo volume explora os protocolos da camada de aplicativos, respeita outros protocolos, não sobrecarrega os links, mas causa o esgotamento dos recursos da vítima.
1.1 Declarações de problemas. A detecção e mitigação de DDoS estão sendo estudadas na comunidade científica e na indústria há vários anos. (A literatura relacionada revela que vários estudos se comprometeram a propor soluções para lidar com esse problema de maneira geral [6, 11–15]. Outro grupo de trabalhos se dedicou a apresentar soluções específicas para ataques DDoS de alto e baixo volume [8, 13, 16] Além disso, apesar das diversas recomendações  ou atenuando ataques DDoS propostos pela CERT (Computer Emergency Response Team) e diretrizes documentadas por meio de Request for Comments (RFC), esses ataques ainda ocorrem com alta frequência.
Um estudo realizado anos atrás [17] revelou que a ineficácia de detectar e mitigar ataques DDoS está diretamente relacionada a erros constantes de configuração e perda de tempo devido à falta de ferramentas que acompanhem a dinâmica da rede sem interferência humana constante. (levou os pesquisadores a usar soluções autônomas que podem operar (detectar e mitigar) com base no comportamento e nas características do tráfego. Nesse sentido, a adoção de soluções com técnicas baseadas em inteligência artificial, principalmente aprendizado de máquina (ML), foi distinguido por oferecer alta flexibilidade no processo de classificação, consequentemente melhorando a detecção de tráfego malicioso [18, 19].
(O setor industrial oferece proteção DDoS como um serviço através de grandes estruturas, geralmente operadas por fornecedores especializados [6], como Akamai, Cloudflare e Arbor Networks, que possuem grande capacidade de processamento e mecanismos de filtragem proprietários. Mas a indústria também tem problemas, como como fragilidade no roteamento de tráfego, geralmente via DNS (Sistema de Nome de Domínio) ou BGP (Border Gateway Protocol), dificuldade em detectar ataques lentos e problemas de privacidade, que afastam alguns segmentos de clientes como governos.
Encontrar o equilíbrio entre proposições acadêmicas e a prática industrial de combater DDoS é um grande desafio. (a academia investe em técnicas como aprendizado de máquina (ML)) e propõe aplicá-las em áreas como detecção de DDoS em sensores de Internet (IoT) [20, 21], sensores sem fio [22], computação em nuvem [23] e redes de softwaredefined (SDN) [18] e trabalhar na produção de conjuntos de dados mais realistas [24, 25] e meios mais eficazes de validação de resultados [26, 27] Por outro lado, os segmentos da indústria investiram gradualmente em novos paradigmas em suas soluções, como como virtualização da função de rede (NFV) e SDN [28, 29] para aplicar descobertas científicas e modernizar estruturas de rede, mesmo assim, os incidentes de DDoS ainda ocorrem diariamente, reforçando que o problema não está resolvido.
1.2 Proposta. Percebendo esses problemas, este artigo propõe a Detecção Inteligente, um novo mecanismo de defesa contra ataques DDoS. (a arquitetura do sistema foi projetada para detectar ataques DDoS de alto e baixo volume. (e o sistema proposto atua como um sensor que pode ser instalado em qualquer lugar da rede e classifica o tráfego on-line usando uma estratégia baseada em MLA que faz inferências utilizando tráfego aleatório) amostras coletadas em dispositivos de rede via protocolo de fluxo. (a abordagem proposta é compatível com a infraestrutura da Internet e não requer atualizações de software ou hardware. Além disso, a privacidade dos dados do usuário é garantida em todas as etapas da operação do sistema.
1.3 Contribuições. Em resumo, as contribuições significativas da detecção inteligente são as seguintes:
(i) (a modelagem, desenvolvimento e validação do sistema de detecção são feitos usando um conjunto de dados personalizado e outros três conhecidos, chamados CIC-DoS, CICIDS2017 e CSE-CIC-IDS2018, em que o sistema recebe amostras aleatórias on-line de tráfego de rede e os classifica como ataques DoS ou normais.
(ii) (e o sistema de detecção proposto difere de outras abordagens pela identificação precoce de uma variedade de ataques volumétricos, como inundação TCP, inundação UDP e inundação HTTP, bem como ataques furtivos, como Cabeçalhos lentos HTTP, corpo lento HTTP e leitura lenta HTTP, mesmo com uma baixa taxa de amostragem de tráfego. Além disso, a detecção inteligente é compatível com a infraestrutura atual da Internet e não requer nenhuma atualização de software ou hardware nos ISPs. Ao mesmo tempo, o sistema proposto utiliza tecnologias avançadas, como ML e NFV.
(iii) Ao contrário dos provedores de serviços de segurança existentes, o sistema proposto não requer redirecionamento de tráfego ou intermediação de conexão. A privacidadedos dados é garantida em todas as etapas. Primeiro, o sistema processa aleatoriamente apenas uma pequena parte do tráfego da rede. Segundo, ele não faz inspeção profunda de pacotes. Em vez disso, a Detecção Inteligente analisa apenas os dados do cabeçalho da camada de rede.
(iv) (o reconhecimento de padrões do tráfego de rede normal e vários tipos de ataques DoS são abordados. Como resultado, um novo banco de dados de assinaturas é criado, usado pela Detecção Inteligente e pode ser aplicado a outros sistemas.
(v) Uma abordagem para a seleção automática de recursos foi desenvolvida usando a técnica de validação cruzada para pesquisas de modelos que atendem a critérios específicos de qualidade de classificação. Essa abordagem foi usada para definir as assinaturas adotadas pelo Smart Detection.
2. Related Works and Background
(A pesquisa sobre detecção de intrusões em redes de computadores é amplamente discutida na literatura. Várias técnicas de detecção e estratégias de proteção foram propostas nos últimos anos. Estudos na literatura classificam os IDSs como sistemas híbridos baseados em assinaturas, baseados em anomalias e ( O primeiro tipo identifica possíveis ataques comparando os eventos observados atuais com suas assinaturas armazenadas. (o segundo detecta anomalias identificando desvios significativos entre o perfil normal pré-estabelecido e os eventos atuais. Em todos os casos, um alerta será gerado se qualquer assinatura for correspondida ou se ocorrer um desvio acima de um limite definido. (a principal vantagem da abordagem baseada em assinaturas é a baixa taxa de alarmes falsos. No entanto, o desafio é escrever assinaturas que cubram todas as variações possíveis de ataque. Por outro lado, a abordagem baseada em anomalias possui a capacidade de detectar ataques desconhecidos, mas requer mais recursos computacionais e geralmente produz mais alarmes falsos. explorar os benefícios de ambas as técnicas [11, 30]. Os ataques de DoS são um tipo específico de intrusão de rede que chamou a atenção da academia, pois destaca pesquisas recentes sobre aplicativos de rede, redes sem fio, computação em nuvem e big data [8, 13, 14, 31].
Várias estratégias de classificação de ataques DDoS foram propostas na literatura na última década. No entanto, os ataques de inundação DDoS foram mais estudados, sendo classificados em duas categorias com base no nível do protocolo que é direcionado [3]:
(i) Ataques de inundação de DDoS em nível de rede / transporte: esses ataques são iniciados principalmente usando pacotes de protocolo TCP (Transmission Control Protocol), User Datagram Protocol (UDP), Internet Control Message Protocol (ICMP) e Internet Name Control System (DNS).
(ii) ataques de inundação de DDoS no nível do aplicativo: esses ataques concentram-se em interromper serviços legítimos ao usuário esgotando os recursos do servidor, por exemplo, soquetes, unidade central de processamento (CPU), memória, largura de banda do disco / banco de dados e largura de banda de entrada / saída (E / S). Os ataques DDoS no nível do aplicativo geralmente consomem menos largura de banda e são mais furtivos por natureza do que ataques volumétricos, pois são muito semelhante ao tráfego benigno.
O maior desafio no combate a ataques DDoS reside na detecção e mitigação precoces de ataques o mais próximo possível de sua origem; no entanto, a implementação de uma solução abrangente que atenda a esses recursos ainda não foi alcançada [3, 32].
Alguns trabalhos recentes inspiraram o desenvolvimento do sistema de detecção inteligente. Essas abordagens estão listadas na Tabela 1 para fins comparativos.
Uma técnica baseada em Protocolo de Transferência de Hipertexto (HTTP) [16] foi proposta para detectar ataques de inundação em servidores Web usando amostragem de dados. (os autores usaram o algoritmo CUMSUM para determinar se o tráfego analisado é normal ou um ataque de DoS, concentrando-se em dois recursos: o número de solicitações da camada de aplicativo e o número de pacotes com tamanho de carga útil igual a zero. (os resultados mostraram uma taxa de detecção entre 80 e 88%, usando uma taxa de amostragem de 20%. Embora tenha feito avanços importantes, o método proposto não parece aplicável em sistemas de mitigação automática, especialmente em ambientes de produção que não suportam altas taxas de amostragem.
O D-FACE é um sistema de defesa colaborativo [34] que utiliza um métricas de entropia generalizada (GE) e distância de informação generalizada (GID) na detecção de diferentes tipos de ataques DDoS e eventos de flash (FEs). Nesse contexto, um FE é semelhante a um DDoS volumétrico, em que milhares de usuários legítimos tentam acessar um recurso de computação específico, como um site simultaneamente. (e os resultados mostram que O D-FACE pode detectar ataques DDoS e FEs. Embora o trabalho apresente contribuições relevantes, a validação utilizou conjuntos de dados obsoletos. Além disso, a abordagem de colaboração proposta requer um alto grau de envolvimento do provedor, restringindo o uso industrial da solução.
O sistema antidose [33] apresenta um meio de interação entre um serviço periférico vulnerável e um Sistema Autônomo (SA) indiretamente relacionado, que permite ao SA implantar com segurança regras de filtragem locais sob o controle do serviço remoto. (o sistema foi avaliado usando o Mininet, mas nenhum conjunto de dados de referência foi usado. (a abordagem proposta pelos autores enfrenta forte resistência dos ISPs por dois motivos: o primeiro é o requisito de atualização de software e hardware e o segundo não tem controle sobre o controle de tráfego local) políticas.
(O sistema SkyShield [35] foi proposto para detectar e mitigar ataques DDoS na camada de aplicação. Na fase de detecção, o SkyShield explora a divergência entre duas tabelas de hash (Esboços) para detectar anomalias causadas pelos hosts do invasor. filtragem, lista de permissões, lista negra e CAPTCHA como mecanismos de proteção. (o sistema foi avaliado usando conjuntos de dados personalizados. O SkyShield se concentrou na camada de aplicação, mais especificamente no protocolo HTTP, para que o sistema proposto seja vulnerável a inundações na camada de rede e transporte camada.
A Umbrella [36] desenvolve uma arquitetura de defesa multicamada para se defender de um amplo espectro de ataques DDoS. (e os autores propuseram uma abordagem baseada na detecção e proteção exclusivamente do lado da vítima. (e o sistema foi avaliado usando o banco de testes personalizado em termos de controle de tráfego. (e os autores afirmam que o sistema é capaz de lidar com ataques em massa). Essa abordagem é amplamente usada na indústria e provou ser ineficiente contra ataques DDoS realmente maciços.
Recentemente, um sistema de aprendizado de máquina semi-supervisionado abordou a classificação de ataques DDoS. Nesta abordagem, o conjunto de dados do CICIDS2017 foi usado para avaliar as métricas de desempenho do sistema [37]. Embora o trabalho aborde os vetores DoS recentes, o desempenho on-line do método não foi avaliado. Por fim, a Tabela 1 resume esses trabalhos recentes cuja abordagem está relacionada à proposta deste artigo.
Na Tabela 1, Online indica que o sistema proposto foi testado em experimentos online e o conjunto de dados informa o conjunto de dados usado para validação, enquanto o L / H DoS indica se ele detecta ataques DDoS lentos e altos. Amostragem indica se algum método de amostragem de tráfego de rede é usado.
Com base nas perguntas abertas na literatura e em relatórios especializados recentes, os ataques de negação de serviço podem permanecer na Internet por algum tempo. (A solução para esse problema inclui a adoção de estratégias de detecção e mitigação práticas e economicamente viáveis. Além disso, essas abordagens devem alavancar a infraestrutura de fornecedores existentes e serem implementadas à luz das novas tendências científicas e tecnológicas.
3. Smart Detection
A Detecção inteligente foi projetada para combater ataques DDoS na Internet de uma maneira modernae colaborativa. Nesta abordagem, o sistema coleta amostras de tráfego de rede e as classifica. As mensagens de notificação de ataque são compartilhadas usando uma plataforma em nuvem para uso conveniente pelos sistemas de proteção de controle de tráfego. (Todo o processo é ilustrado na Figura 1.
O núcleo do sistema de detecção consiste em um conjunto de dados de assinatura (SDS) e um algoritmo de aprendizado de máquina (MLA). A Figura 2 mostra as etapas cruciais da criação do modelo à operação do sistema.
Primeiro, o tráfego normal e as assinaturas DDoS foram extraídas, rotuladas e armazenadas em um banco de dados. O SDS foi criado usando técnicas de seleção de recursos. Finalmente, o MLA mais preciso foi selecionado, treinado e carregado no sistema de classificação de tráfego.
a arquitetura do sistema de detecção foi projetada para trabalhar com amostras de tráfego de rede fornecidas por protocolos de amostragem de tráfego padrão industrial, coletados de dispositivos de rede. (e amostras não identificadas são recebidas e agrupadas em tabelas de fluxo no buffer do receptor. (quando o Se o tamanho da tabela for maior ou igual ao valor de referência, eles são apresentados ao classificador responsável por rotulá-los, como mostra a Figura 3. Se a tabela de fluxo expirar, poderá ser processada mais uma vez. (e ocorrência de pequenas tabelas de fluxo é mais alto em taxas de amostragem mais baixas ou em alguns tipos de ataques DoS, por exemplo, ataques SYN flood. A Tabela 2 detalha os parâmetros para o ajuste fino do sistema.
o algoritmo completo do sistema de detecção está resumido na Figura 4. Durante cada ciclo do processo de detecção, as amostras de tráfego são recebidas e armazenadas em uma tabela de fluxo. Para cada novo fluxo, um identificador exclusivo (FlowID) é calculado com base nas 5 tuplas (src_IP, dst_IP, src_port, dst_port e transport_protocol) nas etapas 1 e 2. Se este for um.
Se um novo fluxo, ou seja, não houver outra tabela de fluxo armazenada com o mesmo FlowID, a tabela de fluxo será registrada em um buffer de memória compartilhada. Caso contrário, se houver uma tabela de fluxo registrada com o mesmo FlowID, como a calculada anteriormente, os dados do novo fluxo serão mesclados com os dados da tabela de fluxo existente nas etapas 3 e 4. Após a operação de mesclagem, se o Se o comprimento da tabela for maior ou igual ao valor de referência (Tl ≥ Tmax), a tabela de fluxo é classificada e, se for considerado um ataque, é emitida uma notificação. Caso contrário, ele será inserido novamente no buffer de memória compartilhada. Enquanto isso, na etapa 7, a tarefa de limpeza procura tabelas de fluxo expiradas no buffer compartilhado, ou seja, tabelas de fluxo que excedem o tempo de expiração do sistema (E> ET). Para cada tabela de fluxo expirada, o sistema verifica o comprimento da tabela. Se o comprimento da tabela de fluxo for menor ou igual ao valor mínimo de referência (Tl ≤ Tmin), essa tabela de fluxo será processada na etapa 8. Um novo FlowID será calculado usando a 3-tupla (src_IP, dst_IP e transport_protocol), como a tabela de fluxo é roteada de volta para as etapas 3 e 4.
3.1 Amostragem de tráfego. A Detecção Inteligente usa uma técnica de amostragem de tráfego de rede porque o processamento de todos os pacotes na rede pode ser uma tarefa computacionalmente cara, mesmo que apenas os cabeçalhos dos pacotes sejam analisados. Em muitos casos, a realização de uma inspeção profunda e a análise da área de dados da camada de aplicação é inviável para sistemas de detecção. Entre os protocolos adotados pelo setor para amostragem de tráfego de rede, o protocolo sFlow é amplamente utilizado nos dispositivos atuais. a técnica usada pelo sFlow é chamada de amostragem n-fora-de-N. Nesta técnica, n amostras são selecionadas dentre N pacotes. Uma maneira de obter uma amostra aleatória simples é gerar aleatoriamente n números diferentes no intervalo de 1 a N e escolher todos os pacotes com uma posição de pacote igual a um dos n valores. Este procedimento é repetido para todos os pacotes N.) Além disso, o tamanho da amostra é fixado nesta abordagem [38].
O sistema de monitoramento sFlow consiste em um agente (incorporado a um switch, um roteador ou uma sonda independente) e um coletor. (a arquitetura usada no sistema de monitoramento é projetada para fornecer monitoramento contínuo da rede de dispositivos comutados e roteados de alta velocidade. (o agente usa a tecnologia de amostragem para capturar estatísticas de tráfego do dispositivo monitorado e encaminhá-las para um coletor) sistema [39].
3.2 Extração de recursos. Nas estratégias de classificação supervisionada, é necessário um conjunto de exemplos para o treinamento do modelo classificador. (é definido é geralmente definido como o banco de dados de assinaturas. Cada instância do banco de dados possui um conjunto de características ou variáveis associadas a um rótulo ou a uma classe. Neste trabalho, o objetivo é identificar características no tráfego de rede capazes de distinguir o comportamento normal de rede dos ataques de negação de serviço. O estudo está focado na análise do variáveis de cabeçalho dos pacotes da camada de rede e transporte da arquitetura TCP / IP, pois permite economizar recursos computacionais e simplifica a implantação no Redes ISP.
Em redes compatíveis com IPv4, os protocolos de camada de rede e transporte são IP, TCP e UDP, especificados nas RFC 791 [40], RFC 793 [41] e RFC 768 [42], respectivamente. Juntos, esses protocolos têm um total de 25 variáveis de cabeçalho. No entanto, protocolos de amostragem de tráfego de rede amplamente utilizados, como NetFlow [43] e sFlow [39], usam apenas uma parte dessas variáveis no processo de amostragem. Geralmente, as sete variáveis usadas são os endereços IP de origem e destino, portas de origem e destino, protocolo da camada de transporte, tamanho do pacote IP e sinalizadores TCP.
Os endereços IP de origem e destino não são muito úteis para identificar o comportamento do tráfego de rede no ambiente da Internet, o que reduz o número de variáveis disponíveis para análise para cinco nos casos mais comuns. Com base nas cinco variáveis usadas principalmente pelo monitoramento de fluxo Nos protocolos, foram derivadas 33 variáveis, conforme descrito na Tabela 3. As medidas estatísticas que expressam a variabilidade dos dados No contexto de cálculo das variáveis do banco de dados, as referências à média, mediana, variância (var) e desvio padrão (std) deve ser interpretado como amostra de medidas.
A variável denominada protocol é uma normalização simples do campo de protocolo extraído dos cabeçalhos de pacotes da camada de transporte no formato:
onde Nproto é o código do protocolo e K é uma constante de normalização definida como o valor 1.000. Por exemplo, Nproto = 6 e Nproto = 17 nos protocolos TCP e UDP, respectivamente.
Com as quatro principais variáveis mais usadas no monitoramento de fluxo, é possível calcular as seguintes medidas estatísticas associadas:
(i) Entropia: a entropia da variável é calculada por:
onde X é a variável de interesse, por exemplo, a a porta de origem.
(ii) Coeficiente de variação: o coeficiente de variação é calculado:
onde std (X) é o desvio padrão estimado e média (X) é a média estimada da variável.
(iii) Coeficiente quantil: este parâmetro é aqui definido:
Onde é a amostra p-quantil expressado por [44]
Sendo as estatísticas da ordem de observações independentes e f é a parte fracionária do índice cercada por 
(iv) Taxa de variação: essa métrica é dada por:
(v) onde UX é a quantidade de valores únicos e SX é o número geral de valores X
o tráfego de dados com comportamento normal de atividade foi extraído do conjunto de dados ISCXIDS2012 [45]. (O tráfego de dados com comportamento de DoS foi obtido em um ambiente controlado por laboratório, usando ferramentas como hping3 [46], hulk [47], Goldeneye [48] e slowhttptest [49].
Processos como extrair, transformar e rotular as instâncias do banco de dados estão resumidos naFigura 5. (o tráfego bruto da rede foi extraído dos arquivos de captura, à medida que os pacotes foram agrupados em sessões. Para cada sessão, uma instância do banco de dados do descritor contendo foram calculadas todas as variáveis listadas na Tabela 3. Neste estudo, apenas as sessões com quinhentos pacotes ou mais foram consideradas para representar melhor cada tipo de tráfego de rede.
o banco de dados final contém exemplos de tráfego normal (23.088 instâncias), ataques de inundação TCP (14.988 instâncias), inundação UDP (6.894 instâncias), inundação HTTP (347 instâncias) e HTTP lento (183 instâncias).
3.3 Seleção de recurso e MLA. A seleção de características é uma etapa importante no processo de reconhecimento de padrões e consiste em definir o menor conjunto possível de variáveis capazes de descrever eficientemente um conjunto de classes [50]. Várias técnicas para seleção de variáveis estão disponíveis na literatura e implementadas em bibliotecas de software como o scikit-learn [51]. Neste trabalho, a seleção das variáveis foi realizada em duas etapas. Primeiro, a Eliminação Recursiva de Recursos com Validação Cruzada (RFECV) foi usada em alguns aprendizado de máquina algoritmos amplamente utilizados na literatura científica, ou seja, floresta aleatória (RF), regressão logística (LR), AdaBoost, descida de gradiente estocástico (SGD), árvore de decisão (DTree) e perceptron. O RF obteve maior precisão usando 28 variáveis, enquanto o AdaBoost selecionou sete variáveis, mas obteve menor precisão, conforme mostrado na Tabela 4. No segundo estágio, um novo teste de seleção de recurso foi realizado com o RF usando o algoritmo proposto 1.
Na abordagem de seleção de recurso proposta usando RF, o número de variáveis foi reduzido de 28 para 20 com um pequeno aumento na precisão, conforme mostrado na Tabela 5. (o algoritmo proposto foi executado usando os seguintes parâmetros de entrada: 1.000 rodadas, 99% de importância variável, 95% de precisão global e 85% de precisão por classe. A Figura 6 mostra que a maioria dos modelos testados usava 20 variáveis, mas cada modelo usava conjuntos específicos de variáveis. Para escolher as variáveis mais relevantes da seleção Nos modelos, foi utilizado o critério de importância da variável RF, conforme descrito na linha.
Na abordagem de seleção de recurso proposta usando RF, o número de variáveis foi reduzido de 28 para 20 com um pequeno aumento na precisão, conforme mostrado na Tabela 5. (o algoritmo proposto foi executado usando os seguintes parâmetros de entrada: 1.000 rodadas, 99% de importância variável, 95% de precisão global e 85% de precisão por classe. A Figura 6 mostra que a maioria dos modelos testados utilizou 20 variáveis. No entanto, cada modelo utilizou conjuntos específicos de variáveis. Para escolher as variáveis mais relevantes da seleção Nos modelos, foi utilizado o critério de importância da variável RF, conforme descrito na linha 25 do algoritmo 1. o resultado final da seleção de características é mostrado na Figura 7.
os resultados mostram que o RF obteve maior precisão do que os outros algoritmos. Embora use mais variáveis que o SGD e o AdaBoost, uma baixa taxa de alarmes falsos é um requisito primordial nos sistemas de detecção de DDoS. Nesse caso, a RF provou ser a melhor opção de algoritmo para o sistema de detecção inteligente. A floresta aleatória é um algoritmo de aprendizado supervisionado que constrói um grande número de árvores de decisão aleatórias e as funde para fazer previsões. Cada árvore é treinada com um subconjunto aleatório do conjunto total de amostras rotuladas. No processo de classificação, a classe mais votada entre todas as árvores do modelo indica o resultado do classificador [52]. No algoritmo proposto para o sistema de detecção mostrado na Figura 4, o RF é usado para classificar o tráfego de rede online, uma tarefa que requer eficiência computacional e altas taxas de acerto.	
4. Results
(O tráfego de rede foi classificado pelo sistema de detecção em um ambiente de rede controlado usando diferentes taxas de amostragem. Nos experimentos, o tráfego de rede bruto do CIC-DoS [16], CICIDS2017 [25] e CSE-CIC-IDS2018 [25] foram utilizados conjuntos de dados e o tráfego bruto da rede capturado nos experimentos personalizados da plataforma de teste. (e O sistema Smart Detection alcançou alta precisão e baixa taxa de falso-positivos. Os experimentos foram conduzidos usando duas caixas de Linux virtual, cada uma delas usando 8 CPUs virtuais (vCPUs) ) com 8 GB RAM.	
4.1 Descrição dos conjuntos de dados de referência. Muitos conjuntos de dados diferentes, como DARPA (Lincoln Laboratory 1998-99), KDD′99 (Universidade da Califórnia, Irvine 1998-99) e LBNL (Lawrence Berkeley National Laboratory e ICSI 2004-2005) foram usados pelos pesquisadores para avaliar a desempenho de suas abordagens propostas de detecção e prevenção de intrusões. No entanto, muitos desses conjuntos de dados estão desatualizados e não são confiáveis para uso [25]. Neste estudo, os conjuntos de dados CIC-DoS, CICIDS2017 e CSE-CIC-IDS2018 e o conjunto de dados personalizado foram usados, pois incluem ameaças modernas e técnicas de DoS.
	
4.1.1 > Conjunto de dados ISCXIDS2012. (eCSC) O conjunto de dados IDS 2012 (ISCXIDS2012) foi construído na Universidade de New Brunswick para fornecer uma referência contemporânea (o conjunto de dados rastreou pacotes reais por sete dias de atividade de rede, incluindo HTTP, SMTP, SSH Protocolos IMAP, POP3 e FTP, cobrindo vários cenários de atividades normais e maliciosas.O ISCXIDS2012 consiste em rastreamentos de rede rotulados, incluindo cargas úteis de pacotes completos no formato pcap e está disponível ao público (https://www.unb.ca/cic/datasets/ ids.html) [45]. (este trabalho se concentra nas atividades normais do arquivo pcap ISCXIDS2012 para extração de assinaturas, mais especificamente no arquivo de dados de sexta-feira, 11/6/2010.
4.1.2 O Conjunto de dados CIC-DoS. (O conjunto de dados do CIC-DoS concentra-se nos ataques de DoS da camada de aplicativo combinados com os rastreamentos livres de ataques do conjunto de dados ISCXIDS2012. Quatro tipos de ataques foram produzidos com ferramentas diferentes, produzindo 8 ataques de ataque de DoS diferentes da camada de aplicativo [16]. (e conjunto resultante contém 24 horas de tráfego de rede com um tamanho total de 4,6 GB e está disponível ao público (https://www.unb.ca/cic/ datasets / dos-dataset.html) .Um resumo dos eventos e ferramentas de ataque usados no O CIC-DoS é apresentado na Tabela 6.
Na execução de ataques de baixo volume usando a ferramenta slowhttptest [49], foi adotado o valor padrão de 50 conexões por ataque, tornando os ataques mais sorrateiros, de acordo com [16].
4.1.3 > e Conjunto de dados CICIDS2017. O conjunto de dados CICIDS2017 foi desenvolvido recentemente pelo ISCX e contém tráfego benigno e os ataques comuns mais atualizados. (este novo conjunto de dados do IDS inclui sete famílias de ataques atualizadas comuns que atendem aos critérios do mundo real e estão disponíveis ao público (http: // www. unb.ca/cic/datasets/IDS2017.html) [25].
Este trabalho se concentra nas atividades maliciosas de DoS do arquivo de captura de quarta-feira, 5 de julho de 2017, que consiste em cinco ataques de DoS / DDoS e uma ampla variedade de tráfego de rede normal. (o conjunto resultante contém 8h de tráfego de rede com um total tamanho de 13G (e as ferramentas de ataque usadas incluem slowloris, Slowhttptest, Hulk, GoldenEye e Heartbleed.
este trabalho se concentra nas atividades maliciosas de DoS / DDoS de 16 de fevereiro de 2018 e terça-feira, 20 de fevereiro de 2018, na captura de arquivos. as ferramentas de ataque usadas incluem SlowHTTPTest, Slowhttptest, Hulk, LOIC e HOIC.
4.1.5 > e Conjunto de dados personalizado. (O conjunto de dados personalizado foi desenvolvido em um ambiente de rede controlado, como mostra a Figura 8. As VLANs 10, 20, 30 e 40 são usadas como hosts vítimas. A VLAN 165 é dedicada aos usuários de uma unidade acadêmica. A VLAN 60 é usadacomo um host atacante, enquanto o monitoramento ocorre na VLAN 1. Todas as redes têm acesso regular à Internet.
o plano de ataque foi configurado para que um ataque seja gerado a cada 30 minutos, em um total de 48 eventos de ataque em 24 horas, iniciando às 00 h00 m00 se terminando às 23 h59 m00 s. Todos os ataques foram executados pelo host 172.16 do host. 60.100, durante o qual não transmitiu tráfego legítimo às vítimas. (E as ferramentas de ataque foram parametrizadas para produzir modos sorrateiros de baixo volume, volume médio ou leve e ataques maciços de alto volume. Dez variações de protocolos e aplicativos) Os ataques baseados em ataques foram adotados usando quatro ferramentas de ataque, conforme mostrado na Tabela 7. (a duração dos ataques baseados em protocolos e em aplicativos de alto volume foi de 30 segundos, enquanto os ataques baseados em aplicativos de baixo volume variaram de 30 a 240 segundos.
Na realização de ataques de baixo volume usando a ferramenta slowhttptest [49], o número de parâmetros de conexão foi adotado como 1.500, em vez da opção padrão correspondente a 50 conexões.
4.2 Experiências online. Os experimentos on-line foram realizados em um ambiente de laboratório controlado, de acordo com a seguinte metodologia de validação:
(1) Os dados brutos do tráfego de rede são obtidos para análise no formato de arquivo pcap.
(2) (e attack plan indicating the origin, destination, attack type, and respective duration for the traffic indicated in step 1 is drawn.
(3) (o ambiente para reprocessar e classificar o tráfego está configurado.
(4) (e o tráfego é processado e classificado.
(5) (e o desempenho do sistema é avaliado adequadamente comparando a saída da etapa 4 com o plano de ataque descrito na etapa 2
Seguindo essa metodologia de validação, foram utilizadas as fontes de captura de tráfego: CIC-DoS, CICIDS2017, CSE-CICIDS2018 e conjunto de dados personalizado, cumprindo as etapas 1 e 2.
(O ambiente para reprocessamento e classificação de tráfego, conforme descrito na etapa 3, foi configurado usando duas caixas do Linux Virtual executando o Open Virtual Switch (OVS) [28], o software TcpReplay [53] e o sistema de detecção inteligente, como mostra a Figura 9.
No reprocessamento, classificação e avaliação do tráfego durante as etapas 4 e 5, o tráfego de dados brutos foi reproduzido pelo software TcpReplay em uma porta OVS específica e amostrado pelo agente sFlow para OVS. (o tráfego de amostra foi enviado ao sistema de detecção inteligente e o resultado da classificação foi comparado com o plano de ataque. A Figura 9 resume os procedimentos executados pela metodologia de validação proposta. o arquivo de tráfego de rede bruto é reprocessado na VM01 e o agente sFlow coleta amostras de tráfego e as envia para o Smart Detection na VM-02.
4.2.1 Configuração do sistema. (O sistema de detecção inteligente possui três parâmetros principais que influenciam diretamente seu desempenho. esses parâmetros mostrados na Tabela 1 permitem ao usuário calibrar o sistema de detecção de acordo com o ambiente operacional. Em cenários em que o SR é muito baixo e o Tmax é muito grande, por exemplo, as amostras de tráfego são descartadas antes do processamento pelo classificador.Por outro lado, se Tmax for muito pequeno, o FAR aumenta porque o classificador tem poucos dados para analisar.No caso de DDoS lento, SR baixo e Tmax grande também reduzem a taxa de detecção de ataques devido ao tempo de expiração da tabela de fluxo na memória ET = 2.
Assim, várias experiências para calibrar o sistema foram realizadas usando (i) SR de 1%, 5%, 10% e 20%; (ii) parâmetro Tmax de 25, 50 e 100; e (iii) ET de 2, 5 e 10 segundos no ambiente de teste. (o resultado mais equilibrado foi obtido com SR ≤ 10%, Tmax = 50 e ET = 2.
4.2.2 Métricas de avaliação. O desempenho do sistema foi avaliado usando as métricas Precision (PREC), Recall (REC) e F-Measure (F1) presentes na literatura [54, 55]. O PREC mede a capacidade de evitar falso positivo, enquanto o REC mede a sensibilidade do sistema. F1 é uma média harmônica entre PREC e REC. Nesse contexto, (i) verdadeiro positivo (TP) é o tráfego de ataque previsto corretamente, (ii) verdadeiro negativo (TN) é o tráfego normal também previsto corretamente, (iii) falso positivo (FP) é o tráfego normal previsto incorretamente, e (iv) falso negativo (FN) é o tráfego de ataque previsto incorretamente. essas métricas foram calculadas pelas seguintes expressões:
Além disso, foram utilizadas as métricas de taxa de detecção (DR) e taxa de falso alarme (FAR). (e DR é a razão entre o número de ataques detectados pelo sistema e o número real de ataques realizados. FAR é a razão entre FP e a soma de FP e TN. (essas métricas foram calculadas pelas seguintes expressões:
onde AD é o número de ataques detectados e TA é o número total de ataques realizados.
onde FP corresponde às classificações falso-positivas e TN é as classificações verdadeiro-positivas.
Os cálculos de DR e FAR pressupõem que apenas o tráfego malicioso foi enviado do atacante para a vítima no momento do ataque.
4.3 Resultados e discussão. (A abordagem proposta foi avaliada usando os conjuntos de dados, configuração do sistema e métricas mencionados acima. A Tabela 8 resume o desempenho do sistema para cada conjunto de dados.
Como pode ser observado, o melhor desempenho foi obtido no conjunto de dados CSE-CIC-IDS2018, com um DR de 100%, um FAR de 0,000% e um PREC de 100%. Durante a análise, houve uma baixa ocorrência de tráfego de rede normal e rajadas bem definidas de tráfego malicioso. (Esse tipo de comportamento facilita a detecção pelo sistema e justifica as altas taxas de acerto alcançadas. No entanto, foi obtido um desempenho um pouco menor no conjunto de dados personalizado e no conjunto de dados CIC-DoS, com um DR de 96,5% e 93,6%, um FAR de 0,2 % e 0,04% e um PREC de 99,5% e 99,9%, respectivamente.Nesses conjuntos de dados, há um volume maior de tráfego normal e vários tipos de ataques, incluindo ataques furtivos da camada de aplicativos.Neste cenário mais realista, o sistema proposto apresentou algumas falhas de detecção, mas ainda obteve um desempenho competitivo.Por outro lado, o pior resultado foi obtido com o conjunto de dados CICIDS2017 com 80% DR, 2% FAR e 99,2% PREC. (esse conjunto de dados expressa um cenário de rede mais realista, que inclui tráfego normal misturado com tráfego malicioso de alto e baixo volume com comportamento furtivo, como ataques lentos da camada de aplicativos.No entanto, o sistema proposto detectou 4 em cada 5 ataques com PREC maior que 90% e FAR menor que 1% showi ng que o método é viável.
Para discutir a detecção e o consumo on-line de recursos de computação durante a experimentação, o conjunto de dados CICIDS2017 foi escolhido por ser bastante realista, recente e resumir os principais vetores de ataques de DoS. Mesmo no cenário mais adverso, o experimento foi concluído normalmente, conforme mostrado nas Figuras 10 e 11. O tráfego geral da rede é demonstrado na Figura 10 (a), enquanto a Figura 10 (b) destaca o tráfego amostrado enviado ao sistema de detecção. Como pode ser visto, para um tráfego de rede de 81,3 Mbps, o sistema de detecção recebe apenas 1,74 Mbps, tornando essa abordagem escalável. A classificação geral de tráfego é mostrada na Figura 11 (a), enquanto a Figura 11 (b) destaca exclusivamente a classificação de tráfego malicioso. Pode-se dizer que o sistema foi eficiente em distinguir o tráfego normal dos ataques DoS, devido a todos os ataques realizados, apenas o ataque Heartbleed não foi detectado, destacado na Figura 10 (b) entre 15 e 16 h. (esse tipo de ataque tem como objetivo principal coletar dados explorando as vulnerabilidades do software OpenSSL, conforme descrito em CVE-2014-0160, embora também possa assumir o comportamento de um ataque DDoS, como em qualquer aplicativo. No entanto, nesse caso, o sistema gerou um falso negativo. (As razões mais óbvias para esse FN são: (i) a execução do ataque Heartbleed sem exploração do DoS ou (ii) coincidência estatísticana amostragem de tráfego. conexões, enquanto no segundo caso, as amostras coletadas coincidem com assinaturas de tráfego legítimas.
Em termos de uso de recursos, o sistema permaneceu estável durante o experimento, como mostra a Figura 11 (c), com pequenas variações no uso da CPU.
Por fim, o sistema de detecção inteligente foi testado usando o tráfego de rede on-line em quatro cenários distintos. (Os resultados apresentados na Tabela 8 mostram que o sistema pode distinguir tráfego legítimo de vários tipos de ataques DoS / DDoS, como inundação TCP, inundação UDP, inundação HTTP e HTTP lenta, com taxas significativas de precisão. (e experimentos também destacaram a importância de ajustar os parâmetros Tmax e ET. (essas variáveis se correlacionam com a taxa de amostragem de tráfego de rede (SR)) e influenciam diretamente a taxa de detecção e a precisão do sistema.
4.3.1 Comparação Adicional. Comparado com alguns trabalhos semelhantes recentes disponíveis na literatura, a abordagem introduzida neste trabalho é bastante competitiva em termos das métricas de desempenho avaliadas, como mostra a Tabela 9.
(A comparação não é completamente justa porque os cenários e dados experimentais foram ligeiramente diferentes, mas é suficiente para permitir uma avaliação dos resultados obtidos. Por exemplo, nos experimentos off-line realizados com o conjunto de dados do CICDoS em [16], o DR foi de 76,92 % usando um SR de 20%, enquanto o sistema proposto obteve um DR online de 90% para os ataques com um FAR de 1,8% usando a mesma técnica de amostragem.Em [37], um PREC de 82,1% foi obtido usando o conjunto de dados CICIDS2017 Na análise offline e sem amostragem, neste trabalho, o método proposto obteve um PREC de 99,9%, que pode ser considerado competitivo para um sistema de detecção on-line baseado em amostras de tráfego de rede, além disso, nos experimentos do conjunto de dados CICIDS2017, onde os dados legítimos a taxa de tráfego é semelhante à do tráfego de ataque, de acordo com as Figuras 10 (b), 11 (a) e 11 (b), o sistema também conseguiu distinguir o tráfego malicioso do tráfego normal, como estudado na palestra [34].
5. Conclusion
(este artigo apresentou o sistema de detecção inteligente, uma abordagem on-line para a detecção de ataques DoS / DDoS. (e o software usa o algoritmo Random Forest Tree para classificar o tráfego de rede com base em amostras coletadas pelo protocolo sFlow diretamente de dispositivos de rede. Diversas experiências foram realizadas para calibrar e avaliar o desempenho do sistema.Os resultados mostraram que o método proposto é viável e apresenta desempenho aprimorado quando comparado com algumas abordagens recentes e relevantes disponíveis na literatura.
(o sistema proposto foi avaliado com base em três conjuntos de dados de referência de detecção de intrusão, a saber, CIC-DoS, CICIDS2017 e CSE-CIC-IDS2018, e foi capaz de classificar vários tipos de ataques de DoS / DDoS, como inundação TCP, inundação UDP, Além disso, o desempenho do método proposto foi comparado com abordagens recentes e relacionadas.Com base nos resultados experimentais, a abordagem de detecção inteligente fornece DR, FAR e PREC aprimorados.Por exemplo, no CICDoS e CSE -CIC-IDS2018, o sistema proposto adquiriu DR e PREC acima de 93% com FAR menor que 1%. Embora o sistema tenha alcançado resultados significativos em seu escopo, ele precisa de algumas melhorias, como uma melhor taxa de acerto entre as classes de ataque e um mecanismo automático de calibração de parâmetros que maximiza a taxa de detecção de ataques.
Trabalhos futuros incluem análise de ataques DDoS com base nas vulnerabilidades de serviços como Heartbleed e ataque de força bruta na Web, aprimoramento na classificação de várias classes, autoconfiguração do sistema, desenvolvimento de métodos para correlação de alarmes acionados e formulação de medidas de proteção.
Disponibilidade de dados
Produzimos um conjunto de dados personalizado e um algoritmo de seleção variável e usamos quatro conjuntos de dados adicionais para apoiar os resultados deste estudo. (o conjunto de dados personalizado usado para apoiar as descobertas deste estudo foi depositado no repositório IEEE Data Port (https://doi.org/10.24433/CO.0280398.v2). (e o algoritmo de seleção de recursos usado para apoiar as descobertas de este estudo foi depositado no repositório Code Ocean (https://doi.org/10.24433/CO.0280398.v2). (e os conjuntos de dados de benchmark usados para apoiar as descobertas deste estudo foram depositados no repositório do Canadian Institute for Cybersecurity disponível publicamente da seguinte forma: (1) o conjunto de dados ISCXIDS2012 (https://www.unb.ca/cic/datasets/ids.html), (2) o conjunto de dados CIC-DoS (https://www.unb.ca/ cic / datasets / dos-dataset.html), (3) o conjunto de dados CICIDS2017 (http://www.unb.ca/cic/datasets/IDS2017.html) e (4) o conjunto de dados CSE-CIC-IDS2018 (https : //www.unb.ca/cic/datasets/ ids-2018.html).
Conflitos de interesse
os autores declaram não haver conflitos de interesse com relação à publicação deste artigo.
Agradecimentos
(os autores gostariam de agradecer ao Instituto de Metrópoles Digitais (IMD / UFRN) e ao Centro de Computação de Alto Desempenho da UFRN (NPAD / UFRN) pelo apoio geral dado a este trabalho e ao Instituto Canadense de Cibersegurança (CIC / UNB) por publicamente compartilhando os conjuntos de dados.

Continue navegando