Detektion sicherheitskritischer Ereignisse in Unternehmensnetzwerken mittels Data Mining

Detection of security-critical events in company networks using data mining

Please always quote using this URN: urn:nbn:de:bvb:20-opus-219561
  • E-Mails, Online Banking und Videokonferenzen sind aus unserem heutigen Alltag nicht mehr wegzudenken. Bei all diesen Aktivitäten werden zahlreiche personenbezogene Informationen und vertrauenswürdige Daten digital übertragen und gespeichert. Zur Sicherstellung der digitalen Daten vor unbefugten Zugriffen und Manipulationen existieren verschiedenste Konzepte, Methoden und Verfahren, die sich unter dem Begriff IT-Sicherheit zusammenfassen lassen. Klassische Sicherheitslösungen aus dem Bereich IT-Sicherheit sind Firewalls und Virenscanner.E-Mails, Online Banking und Videokonferenzen sind aus unserem heutigen Alltag nicht mehr wegzudenken. Bei all diesen Aktivitäten werden zahlreiche personenbezogene Informationen und vertrauenswürdige Daten digital übertragen und gespeichert. Zur Sicherstellung der digitalen Daten vor unbefugten Zugriffen und Manipulationen existieren verschiedenste Konzepte, Methoden und Verfahren, die sich unter dem Begriff IT-Sicherheit zusammenfassen lassen. Klassische Sicherheitslösungen aus dem Bereich IT-Sicherheit sind Firewalls und Virenscanner. Derartige Ansätze sind meist regelbasiert und prüfen Dateien beziehungsweise eingehenden Netzwerkverkehr anhand einer Liste bekannter Angriffssignaturen. Folglich können diese Systeme nur bereits bekannte Angriffsszenarien detektieren und bieten keinen Schutz vor neuartigen Angriffen. Somit entsteht im Bereich IT-Sicherheit ein Wettlauf zwischen Hackern und IT-Sicherheitsexperten, bei dem die Hacker stets nach neuen Mitteln und Wegen suchen, die existierenden Sicherheitslösungen zu überwinden, während IT-Sicherheitsexperten stetig ihre Schutzmechanismen verbessern. Die vorliegende Arbeit widmet sich der Detektion von Angriffsszenarien in Unternehmensnetzwerken mithilfe von Data Mining-Methoden. Diese Methoden sind in der Lage anhand von repräsentativen Daten die darin enthaltenen Strukturen zu erlernen und zu generalisieren. Folglich können sich Data Mining-Methoden grundsätzlich zur Detektion neuer Angriffsszenarien eignen, wenn diese Angriffsszenarien Überschneidungen mit bekannten Angriffsszenarien aufweisen oder sich wesentlich vom bekannten Normalverhalten unterscheiden. In dieser Arbeit werden netzwerkbasierte Daten im NetFlow Format analysiert, da diese einen aggregierten Überblick über das Geschehen im Netzwerk bieten. Häufig können Netzwerkdaten aufgrund datenschutzrechtlicher Bedenken nicht veröffentlicht werden, was für die Erzeugung synthetischer, aber realistischer Netzwerkdaten spricht. Des Weiteren führt die Beschaffenheit der Netzwerkdaten dazu, dass eine Kombination von kontinuierlichen und kategorischen Attributen analysiert werden muss, was vor allem das Vergleichen der Daten bezüglich ihrer Ähnlichkeit erschwert. Diese Arbeit liefert methodische Beiträge zu jeder der drei genannten Herausforderungen. Im Bereich der Abstandsberechnung kategorischer Werte werden mit ConDist und IP2Vec zwei unterschiedliche Ansätze entwickelt. ConDist ist ein universell einsetzbares Abstandsmaß zur Berechnung von Abständen zwischen Datenpunkten, die aus kontinuierlichen und kategorischen Attributen bestehen. IP2Vec ist auf Netzwerkdaten spezialisiert und transformiert kategorische Werte in kontinuierliche Vektoren. Im Bereich der Generierung realistischer Netzwerkdaten werden neben einer ausführlichen Literaturrecherche zwei unterschiedliche Ansätze vorgestellt. Zunächst wird ein auf Simulation basierter Ansatz zur Generierung flowbasierter Datensätze entwickelt. Dieser Ansatz basiert auf einer Testumgebung und simuliert typische Benutzeraktivitäten durch automatisierte Python Skripte. Parallel hierzu wird ein zweiter Ansatz zur synthetischen Generierung flowbasierter Netzwerkdaten durch Modellierung mithilfe von Generative Adversarial Networks entwickelt. Dieser Ansatz erlernt die zugrundeliegenden Eigenschaften der Netzwerkdaten und ist anschließend in der Lage, neue Netzwerkdaten mit gleichen Eigenschaften zu generieren.Während sich der erste Ansatz zur Erstellung neuer Datensätze eignet, kann der zweite Ansatz zur Anreicherung existierender Datensätze genutzt werden. Schließlich liefert diese Arbeit noch zwei Beiträge zur Detektion von Angriffsszenarien. Im ersten Beitrag wird ein Konzept zur Detektion von Angriffsszenarien entwickelt, welches sich an die typischen Phasen eines Angriffsszenarios orientiert. Im zweiten Beitrag werden eine überwachte und eine unüberwachte Methode zur Detektion von langsamen Port Scans vorgestellt.show moreshow less
  • E-mails, online banking and video conferences have become an integral part of our daily lives. All these processes transmit confidential data and personal information over insecure lines. There are many concepts, methods and procedures to protect digital data against unauthorised access and manipulation which can be summarised under the term IT security. Typical security mechanisms are firewalls and virus scanners. Such approaches are usually rule-based and check files or incoming network traffic against a list of known attack signatures.E-mails, online banking and video conferences have become an integral part of our daily lives. All these processes transmit confidential data and personal information over insecure lines. There are many concepts, methods and procedures to protect digital data against unauthorised access and manipulation which can be summarised under the term IT security. Typical security mechanisms are firewalls and virus scanners. Such approaches are usually rule-based and check files or incoming network traffic against a list of known attack signatures. Consequently, these approaches can only detect known signatures and do not offer protection against zero-day exploits. Generally, there is a race between IT security experts and hackers in which hackers try to find new ways and methods to trick existing security solutions while IT security experts try to improve their security mechanisms. This work aims at the detection of attack scenarios in company networks using data mining methods. Data mining methods are able to learn and generalise from representative training data. Consequently, these methods can be used to detect new attack scenarios if the new attack scenarios overlap with known attack scenarios or differ significantly from normal behaviour. This work focuses on the analysis of network-based data in NetFlow format, since this provides an aggregate view of what is going on in the network. Mostly, network-based data can not be shared due to privacy concerns which calls for the generation of synthetic, but realistic network data. Further, network-based data consists of continuous and categorical attributes which complicates their analysis, in particular comparing these data with respect to their (dis)similarity. This work provides methodological contributions to each of the three mentioned challenges above. The developed methods ConDist and IP2Vec are two different approaches for distance calculation between categorical values. ConDist is a generally usable distance measure for calculating distances between objects with continuous and categorical attributes. IP2Vec is specialised on network-based data and transforms categorical values into semantic-preserving continuous vectors. Further, this work provides an exhaustive overview about network-based data sets and pro-poses two new approaches for generating realistic network-based data. The first approach rebuilds company networks in a test environment and simulates typical user activities by automated Python scripts. The second approach is based on Generative Adversarial Networks and generates synthetic data. Generative Adversarial Networks learn the characteristics of network-based data and generate new data with the same underlying characteristics. While the first approach is able to create new data sets, the second approach can be used to enrich existing data sets with additional data. Finally, this work provides two contributions to the detection of attack scenarios. The first contribution provides a general concept for attack detection, which is oriented towards the typical phases of attack scenarios. The second contribution proposes an unsupervised and a supervised method for detecting slow port scans with high accuracy.show moreshow less

Download full text files

Export metadata

Metadaten
Author: Markus RingORCiD
URN:urn:nbn:de:bvb:20-opus-219561
Document Type:Doctoral Thesis
Granting Institution:Universität Würzburg, Fakultät für Mathematik und Informatik
Faculties:Fakultät für Mathematik und Informatik / Institut für Informatik
Referee:Prof. Dr. Andreas Hotho, Prof. Dr. Dieter Landes
Date of final exam:2020/12/08
Language:German
Year of Completion:2021
DOI:https://doi.org/10.25972/OPUS-21956
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 000 Informatik, Informationswissenschaft, allgemeine Werke
GND Keyword:Data Mining; Neuronale Netze; Eindringerkennung
Tag:IT-Sicherheit; Netzwerkdaten
Intrusion Detection
CCS-Classification:I. Computing Methodologies / I.2 ARTIFICIAL INTELLIGENCE / I.2.0 General
Release Date:2021/01/13
Licence (German):License LogoCC BY-SA: Creative-Commons-Lizenz: Namensnennung, Weitergabe unter gleichen Bedingungen 4.0 International