@phdthesis{Ring2021, author = {Ring, Markus}, title = {Detektion sicherheitskritischer Ereignisse in Unternehmensnetzwerken mittels Data Mining}, doi = {10.25972/OPUS-21956}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-219561}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2021}, abstract = {E-Mails, Online Banking und Videokonferenzen sind aus unserem heutigen Alltag nicht mehr wegzudenken. Bei all diesen Aktivit{\"a}ten werden zahlreiche personenbezogene Informationen und vertrauensw{\"u}rdige Daten digital {\"u}bertragen und gespeichert. Zur Sicherstellung der digitalen Daten vor unbefugten Zugriffen und Manipulationen existieren verschiedenste Konzepte, Methoden und Verfahren, die sich unter dem Begriff IT-Sicherheit zusammenfassen lassen. Klassische Sicherheitsl{\"o}sungen aus dem Bereich IT-Sicherheit sind Firewalls und Virenscanner. Derartige Ans{\"a}tze sind meist regelbasiert und pr{\"u}fen Dateien beziehungsweise eingehenden Netzwerkverkehr anhand einer Liste bekannter Angriffssignaturen. Folglich k{\"o}nnen diese Systeme nur bereits bekannte Angriffsszenarien detektieren und bieten keinen Schutz vor neuartigen Angriffen. Somit entsteht im Bereich IT-Sicherheit ein Wettlauf zwischen Hackern und IT-Sicherheitsexperten, bei dem die Hacker stets nach neuen Mitteln und Wegen suchen, die existierenden Sicherheitsl{\"o}sungen zu {\"u}berwinden, w{\"a}hrend IT-Sicherheitsexperten stetig ihre Schutzmechanismen verbessern. Die vorliegende Arbeit widmet sich der Detektion von Angriffsszenarien in Unternehmensnetzwerken mithilfe von Data Mining-Methoden. Diese Methoden sind in der Lage anhand von repr{\"a}sentativen Daten die darin enthaltenen Strukturen zu erlernen und zu generalisieren. Folglich k{\"o}nnen sich Data Mining-Methoden grunds{\"a}tzlich zur Detektion neuer Angriffsszenarien eignen, wenn diese Angriffsszenarien {\"U}berschneidungen mit bekannten Angriffsszenarien aufweisen oder sich wesentlich vom bekannten Normalverhalten unterscheiden. In dieser Arbeit werden netzwerkbasierte Daten im NetFlow Format analysiert, da diese einen aggregierten {\"U}berblick {\"u}ber das Geschehen im Netzwerk bieten. H{\"a}ufig k{\"o}nnen Netzwerkdaten aufgrund datenschutzrechtlicher Bedenken nicht ver{\"o}ffentlicht werden, was f{\"u}r die Erzeugung synthetischer, aber realistischer Netzwerkdaten spricht. Des Weiteren f{\"u}hrt die Beschaffenheit der Netzwerkdaten dazu, dass eine Kombination von kontinuierlichen und kategorischen Attributen analysiert werden muss, was vor allem das Vergleichen der Daten bez{\"u}glich ihrer {\"A}hnlichkeit erschwert. Diese Arbeit liefert methodische Beitr{\"a}ge zu jeder der drei genannten Herausforderungen. Im Bereich der Abstandsberechnung kategorischer Werte werden mit ConDist und IP2Vec zwei unterschiedliche Ans{\"a}tze entwickelt. ConDist ist ein universell einsetzbares Abstandsmaß zur Berechnung von Abst{\"a}nden zwischen Datenpunkten, die aus kontinuierlichen und kategorischen Attributen bestehen. IP2Vec ist auf Netzwerkdaten spezialisiert und transformiert kategorische Werte in kontinuierliche Vektoren. Im Bereich der Generierung realistischer Netzwerkdaten werden neben einer ausf{\"u}hrlichen Literaturrecherche zwei unterschiedliche Ans{\"a}tze vorgestellt. Zun{\"a}chst wird ein auf Simulation basierter Ansatz zur Generierung flowbasierter Datens{\"a}tze entwickelt. Dieser Ansatz basiert auf einer Testumgebung und simuliert typische Benutzeraktivit{\"a}ten durch automatisierte Python Skripte. Parallel hierzu wird ein zweiter Ansatz zur synthetischen Generierung flowbasierter Netzwerkdaten durch Modellierung mithilfe von Generative Adversarial Networks entwickelt. Dieser Ansatz erlernt die zugrundeliegenden Eigenschaften der Netzwerkdaten und ist anschließend in der Lage, neue Netzwerkdaten mit gleichen Eigenschaften zu generieren.W{\"a}hrend sich der erste Ansatz zur Erstellung neuer Datens{\"a}tze eignet, kann der zweite Ansatz zur Anreicherung existierender Datens{\"a}tze genutzt werden. Schließlich liefert diese Arbeit noch zwei Beitr{\"a}ge zur Detektion von Angriffsszenarien. Im ersten Beitrag wird ein Konzept zur Detektion von Angriffsszenarien entwickelt, welches sich an die typischen Phasen eines Angriffsszenarios orientiert. Im zweiten Beitrag werden eine {\"u}berwachte und eine un{\"u}berwachte Methode zur Detektion von langsamen Port Scans vorgestellt.}, subject = {Data Mining}, language = {de} } @phdthesis{Buckel2014, author = {Buckel, Thomas}, title = {Verbesserung und {\"U}berwachung von RFID-Infrastrukturen im Einzelhandel - ein aktionsforschungsbasierter Ansatz}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-106719}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Die Grundlage f{\"u}r eine hohe Bestandsgenauigkeit ist die unternehmens{\"u}bergreifende Identifikation und Nachverfolgung von Waren, die mit automatisierten Identifizierungstechnologien (Auto-ID-Technologien) erm{\"o}glicht wird. Die Einf{\"u}hrung der Auto-ID-Technologie des Barcodes hat die Industrie vor mehr als 30 Jahren fundamental ver{\"a}ndert. Darauf aufbauend versprechen neuere Auto-ID-Technologien wie die „Radio Frequency Identification" (RFID) Probleme wie die Nichtverf{\"u}gbarkeit von Waren, eine intransparente Diebstahlrate oder Warenschwund durch eine bessere Nachverfolgung aller Waren und eine h{\"o}here Bestandsgenauigkeit zu l{\"o}sen. Die Vorteile von RFID gegen{\"u}ber dem Barcode sind unter anderem die h{\"o}here Datendichte, die gr{\"o}ßere Robustheit gegen{\"u}ber Umwelteinfl{\"u}ssen sowie die schnellere und mehrfache Erfassung von Gegenst{\"a}nden. Viele Unternehmen sehen sich jedoch vor allem nach der Implementierung einer RFID-Infrastruktur mit einer Vielzahl von Problemen konfrontiert. Aspekte wie wenig Unterst{\"u}tzung durch das Management, interner Widerstand durch Mitarbeiter, Probleme bei der Integration von Hardware und Software und vor allem eine mangelnde Datenqualit{\"a}t verhindern, dass die prognostizierten positiven Effekte erreicht werden k{\"o}nnen. Derartige Ph{\"a}nomene werden passend unter dem Begriff „Credibility Gap" zusammengefasst. Dieser beschreibt die Problematik, dass es insgesamt an Verfahren, Methoden und gezielter Unterst{\"u}tzung mangelt, um die in der Literatur umfangreich versprochenen positiven Effekte tats{\"a}chlich und nachhaltig zu realisieren. Passend werden die erwarteten Einsparungen und Verbesserungen durch den RFID-Einsatz oftmals als Expertensch{\"a}tzungen und sogar als gr{\"o}ßtenteils rein spekulativ bezeichnet. Das Ziel dieser Dissertation ist es, Praktikern das Erreichen der positiven RFID-Effekte zu erm{\"o}glichen. Hierzu wurden vielf{\"a}ltige Untersuchungen auf Basis einer langfristigen Kooperation mit einem der weltweit gr{\"o}ßten Bekleidungsh{\"a}ndler durchgef{\"u}hrt, indem ein RFID-Implementierungsprojekt begleitet und intensiv mitgestaltet wurde. Zun{\"a}chst wird best{\"a}tigt, dass die prognostizierten Vorteile der RFID-Technologie tats{\"a}chlich nicht allein durch die Implementierung der ben{\"o}tigten Infrastruktur erreicht werden k{\"o}nnen. Als Grund werden hohe Bestandsungenauigkeiten der verwendeten Bestandssysteme identifiziert, die sowohl auf technische als auch auf menschlich verursachte Fehler zur{\"u}ckzuf{\"u}hren sind. Als Folge ist die RFID-Datenqualit{\"a}t nicht verl{\"a}sslich. Die Dissertation setzt an den Problemen des Credibility Gap an und diagnostiziert bei einer bereits implementierten RFID-Infrastruktur zun{\"a}chst die Fehler und Ursachen der mangelnden Datenqualit{\"a}t. Darauf aufbauend werden Maßnahmen und Handlungsanweisungen vorgestellt, mit deren Hilfe die Fehler behoben und die Infrastruktur schließlich verbessert und {\"u}berwacht werden kann. Um insgesamt die Anforderungen der Praxis und der Wissenschaft erfolgreich miteinander zu verkn{\"u}pfen, wird als Forschungsmethode eine neuartige Kombination zweier Auspr{\"a}gungen der Aktionsforschung verwendet. Als Ergebnis werden einerseits f{\"u}r Praktiker hilfreiche Frameworks und Tests zur Fehlerbehebung, {\"U}berwachungskennzahlen sowie Regeln des effektiven RFID-Systemmanagements beschrieben. Alle durchgef{\"u}hrten und in der Dissertation vorgestellten Maßnahmen f{\"u}hren nachweislich zu einer erh{\"o}hten Datenqualit{\"a}t eines implementierten RFID-Systems und stellen M{\"o}glichkeiten zur kennzahlenbasierten Visualisierung der RFID-Prozessperformance bereit. Andererseits wird ein Modell f{\"u}r die Verwendung der Aktionsforschung vorgeschlagen sowie eine umfangreiche Validierung der Methodik durchgef{\"u}hrt. Auf diese Weise wird neben der Praxisrelevanz der Ergebnisse auch die Pr{\"a}zision der Forschungsergebnisse sichergestellt. S{\"a}mtliche Ergebnisse dienen als Basis f{\"u}r vielf{\"a}ltige Forschungsans{\"a}tze. So erm{\"o}glichen eine h{\"o}here Verl{\"a}sslichkeit und Datenqualit{\"a}t der RFID-Informationen aussagekr{\"a}ftigere Analysen. Weiter sind durch fehlerkorrigierte Prozessdaten neuartige Methoden des RFID-Data-Mining denkbar. Dieser Forschungsbereich ist nach wie vor gr{\"o}ßtenteils unber{\"u}hrt und bietet enormes Potential, weitere durch RFID in Aussicht gestellte Vorteile zu realisieren.}, subject = {RFID}, language = {de} } @phdthesis{Schoeneberg2014, author = {Sch{\"o}neberg, Hendrik}, title = {Semiautomatische Metadaten-Extraktion und Qualit{\"a}tsmanagement in Workflow-Systemen zur Digitalisierung historischer Dokumente}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-104878}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Performing Named Entity Recognition on ancient documents is a time-consuming, complex and error-prone manual task. It is a prerequisite though to being able to identify related documents and correlate between named entities in distinct sources, helping to precisely recreate historic events. In order to reduce the manual effort, automated classification approaches could be leveraged. Classifying terms in ancient documents in an automated manner poses a difficult task due to the sources' challenging syntax and poor conservation states. This thesis introduces and evaluates approaches that can cope with complex syntactial environments by using statistical information derived from a term's context and combining it with domain-specific heuristic knowledge to perform a classification. Furthermore this thesis demonstrates how metadata generated by these approaches can be used as error heuristics to greatly improve the performance of workflow systems for digitizations of early documents.}, subject = {Klassifikation}, language = {de} }