TY  - THES
A1  - Kaempgen, Benedikt
T1  - Deskriptives Data-Mining für Entscheidungsträger: Eine Mehrfachfallstudie
T1  - Descriptive data mining for decision-makers: a multiple case study
N2  - Das Potenzial der Wissensentdeckung in Daten wird häufig nicht ausgenutzt, was hauptsächlich auf Barrieren zwischen dem Entwicklerteam und dem Endnutzer des Data-Mining zurückzuführen ist. In dieser Arbeit wird ein transparenter Ansatz zum Beschreiben und Erklären von Daten für Entscheidungsträger vorgestellt. In Entscheidungsträger-zentrierten Aufgaben werden die Projektanforderungen definiert und die Ergebnisse zu einer Geschichte zusammengestellt. Eine Anforderung besteht dabei aus einem tabellarischen Bericht und ggf. Mustern in seinem Inhalt, jeweils verständlich für einen Entscheidungsträger. Die technischen Aufgaben bestehen aus einer Datenprüfung, der Integration der Daten in einem Data-Warehouse sowie dem Generieren von Berichten und dem Entdecken von Mustern wie in den Anforderungen beschrieben. Mehrere Data-Mining-Projekte können durch Wissensmanagement sowie eine geeignete Infrastruktur voneinander profitieren. Der Ansatz wurde in zwei Projekten unter Verwendung von ausschließlich Open-Source-Software angewendet.
N2  - Despite high potential of data mining in business and science many projects fail due to barriers between the developer team and the end user. In this work a more transparent approach to describing and explaining data to a decision-maker is presented. In decision-maker-centric tasks project requirements are defined and finally the results composed to a story. A requirement is made of a tabular report and possibly patterns in its data, each understandable to a decision-maker. The technical tasks consist of a data assay, the integration of data within a data warehouse and, as required, the creation of reports and the discovery of patterns. Multiple data mining projects benefit from each other through knowledge management and a common infrastructure. The approach has been applied to two projects exclusively using open source systems.
KW  - Data Mining
KW  - Entscheidungsträger
KW  - Fallstudie
KW  - Methodologie
KW  - Endnutzer
KW  - Business Intelligence
KW  - Open Source
KW  - data mining
KW  - case study
KW  - process model
KW  - end user
KW  - open source
Y1  - 2009
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-46343
ER  - 
TY  - THES
A1  - Ring, Markus
T1  - Detektion sicherheitskritischer Ereignisse in Unternehmensnetzwerken mittels Data Mining
T1  - Detection of security-critical events in company networks using data mining
N2  - E-Mails, Online Banking und Videokonferenzen sind aus unserem heutigen Alltag nicht mehr wegzudenken. Bei all diesen Aktivitäten werden zahlreiche personenbezogene Informationen und vertrauenswürdige Daten digital übertragen und gespeichert. Zur Sicherstellung der digitalen Daten vor unbefugten Zugriffen und Manipulationen existieren verschiedenste Konzepte, Methoden und Verfahren, die sich unter dem Begriff IT-Sicherheit zusammenfassen lassen. Klassische Sicherheitslösungen aus dem Bereich IT-Sicherheit sind Firewalls und Virenscanner. Derartige Ansätze sind meist regelbasiert und prüfen Dateien beziehungsweise eingehenden Netzwerkverkehr anhand einer Liste bekannter Angriffssignaturen. Folglich können diese Systeme nur bereits bekannte Angriffsszenarien detektieren und bieten keinen Schutz vor neuartigen Angriffen. Somit entsteht im Bereich IT-Sicherheit ein Wettlauf zwischen Hackern und IT-Sicherheitsexperten, bei dem die Hacker stets nach neuen Mitteln und Wegen suchen, die existierenden Sicherheitslösungen zu überwinden, während IT-Sicherheitsexperten stetig ihre Schutzmechanismen verbessern. 

Die vorliegende Arbeit widmet sich der Detektion von Angriffsszenarien in Unternehmensnetzwerken mithilfe von Data Mining-Methoden. Diese Methoden sind in der Lage anhand von repräsentativen Daten die darin enthaltenen Strukturen zu erlernen und zu generalisieren. Folglich können sich Data Mining-Methoden grundsätzlich zur Detektion neuer Angriffsszenarien eignen, wenn diese Angriffsszenarien Überschneidungen mit bekannten Angriffsszenarien aufweisen oder sich wesentlich vom bekannten Normalverhalten unterscheiden.   In dieser Arbeit werden netzwerkbasierte Daten im NetFlow Format analysiert, da diese einen aggregierten Überblick über das Geschehen im Netzwerk bieten.  Häufig können Netzwerkdaten aufgrund datenschutzrechtlicher Bedenken nicht veröffentlicht werden, was für die Erzeugung synthetischer, aber realistischer Netzwerkdaten spricht.  Des Weiteren führt die Beschaffenheit der Netzwerkdaten dazu, dass eine Kombination von kontinuierlichen und kategorischen Attributen analysiert werden muss, was vor allem das Vergleichen der Daten bezüglich ihrer Ähnlichkeit erschwert. 

Diese Arbeit liefert methodische Beiträge zu jeder der drei genannten Herausforderungen. Im Bereich der Abstandsberechnung kategorischer Werte werden mit ConDist und IP2Vec zwei unterschiedliche Ansätze entwickelt. ConDist ist ein universell einsetzbares Abstandsmaß zur Berechnung von Abständen zwischen Datenpunkten, die aus kontinuierlichen und kategorischen Attributen bestehen. IP2Vec ist auf Netzwerkdaten spezialisiert und transformiert kategorische Werte in kontinuierliche Vektoren.

Im Bereich der Generierung realistischer Netzwerkdaten werden neben einer ausführlichen Literaturrecherche zwei unterschiedliche Ansätze vorgestellt. Zunächst wird ein auf Simulation basierter Ansatz zur Generierung flowbasierter Datensätze entwickelt. Dieser Ansatz basiert auf einer Testumgebung und simuliert typische Benutzeraktivitäten durch automatisierte Python Skripte. Parallel hierzu wird ein zweiter Ansatz zur synthetischen Generierung flowbasierter Netzwerkdaten durch Modellierung mithilfe von Generative Adversarial Networks entwickelt. Dieser Ansatz erlernt die zugrundeliegenden Eigenschaften der Netzwerkdaten und ist anschließend in der Lage, neue Netzwerkdaten mit gleichen Eigenschaften zu generieren.Während sich der erste Ansatz zur Erstellung neuer Datensätze eignet, kann der zweite Ansatz zur Anreicherung existierender Datensätze genutzt werden.   

Schließlich liefert diese Arbeit noch zwei Beiträge zur Detektion von Angriffsszenarien. Im ersten Beitrag wird ein Konzept zur Detektion von Angriffsszenarien entwickelt, welches sich an die typischen Phasen eines Angriffsszenarios orientiert. Im zweiten Beitrag werden eine überwachte und eine unüberwachte Methode zur Detektion von langsamen Port Scans vorgestellt.
N2  - E-mails, online banking and video conferences have become an integral part of our daily lives. All these processes transmit confidential data and personal information over insecure lines. There are many concepts, methods and procedures to protect digital data against unauthorised access and manipulation which can be summarised under the term IT security. Typical security mechanisms are firewalls and virus scanners. Such approaches are usually rule-based and check files or incoming network traffic against a list of known attack signatures. Consequently, these approaches can only detect known signatures and do not offer protection against zero-day exploits. Generally, there is a race between IT security experts and hackers in which hackers try to find new ways and methods to trick existing security solutions while IT security experts try to improve their security mechanisms. 

This work aims at the detection of attack scenarios in company networks using data mining methods. Data mining methods are able to learn and generalise from representative training data. Consequently, these methods can be used to detect new attack scenarios if the new attack scenarios overlap with known attack scenarios or differ significantly from normal behaviour. This work focuses on the analysis of network-based data in NetFlow format, since this provides an aggregate view of what is going on in the network. Mostly, network-based data can not be shared due to privacy concerns which calls for the generation of synthetic, but realistic network data. Further, network-based data consists of continuous and categorical attributes which complicates their analysis, in particular comparing these data with respect to their (dis)similarity.

This work provides methodological contributions to each of the three mentioned challenges above. The developed methods ConDist and IP2Vec are two different approaches for distance calculation between categorical values. ConDist is a generally usable distance measure for calculating distances between objects with continuous and categorical attributes. IP2Vec is specialised on network-based data and transforms categorical values into semantic-preserving continuous vectors.

Further, this work provides an exhaustive overview about network-based data sets and pro-poses two new approaches for generating realistic network-based data. The first approach rebuilds company networks in a test environment and simulates typical user activities by automated Python scripts. The second approach is based on Generative Adversarial Networks and generates synthetic data.  Generative Adversarial Networks learn the characteristics of network-based data and generate new data with the same underlying characteristics. While the first approach is able to create new data sets, the second approach can be used to enrich existing data sets with additional data. 

Finally, this work provides two contributions to the detection of attack scenarios. The first contribution provides a general concept for attack detection, which is oriented towards the typical phases of attack scenarios. The second contribution proposes an unsupervised and a supervised method for detecting slow port scans with high accuracy.
KW  - Data Mining
KW  - Corporate Network
KW  - Angriff
KW  - IT-Sicherheit
KW  - Netzwerkdaten
KW  - Intrusion Detection
KW  - Datensicherung
KW  - Neuronale Netze
KW  - Eindringerkennung
Y1  - 2021
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-219561
ER  - 
TY  - THES
A1  - Schöneberg, Hendrik
T1  - Semiautomatische Metadaten-Extraktion und Qualitätsmanagement in Workflow-Systemen zur Digitalisierung historischer Dokumente
T1  - Semi-automated Metadata Extraction and Quality Management in Workflow Systems for Digitizations of Early Documents
N2  - Performing Named Entity Recognition on ancient documents is a time-consuming, complex and
error-prone manual task. It is a prerequisite though to being able to identify related documents and correlate between named entities in distinct sources, helping to precisely
recreate historic events. In order to reduce the manual effort, automated classification approaches could be leveraged. Classifying terms in ancient documents in an automated
manner poses a difficult task due to the sources’ challenging syntax and poor conservation states. This thesis introduces and evaluates approaches that can cope with complex syntactial environments by using statistical information derived from a term’s context and combining it with domain-specific heuristic knowledge to perform a classification. Furthermore this thesis demonstrates how metadata generated by these approaches can be used as error heuristics to greatly improve the performance of workflow systems for digitizations of early documents.
N2  - Die Extraktion von Metadaten aus historischen Dokumenten ist eine zeitintensive, komplexe und höchst fehleranfällige Tätigkeit, die üblicherweise vom menschlichen Experten übernommen werden muss. Sie ist jedoch notwendig, um Bezüge zwischen Dokumenten herzustellen, Suchanfragen zu historischen Ereignissen korrekt zu beantworten oder semantische Verknüpfungen aufzubauen. Um den manuellen Aufwand dieser Aufgabe reduzieren zu können, sollen Verfahren der Named Entity Recognition angewendet werden. Die Klassifikation von Termen in historischen Handschriften stellt jedoch eine große Herausforderung dar, da die Domäne eine hohe Schreibweisenvarianz durch unter anderem nur konventionell vereinbarte Orthographie mit sich bringt. Diese Arbeit stellt Verfahren vor, die auch in komplexen syntaktischen Umgebungen arbeiten können, indem sie auf Informationen aus dem Kontext der zu klassifizierenden Terme zurückgreifen und diese mit domänenspezifischen Heuristiken kombinieren. Weiterhin wird evaluiert, wie die so gewonnenen Metadaten genutzt werden können, um in Workflow-Systemen zur Digitalisierung historischer Handschriften Mehrwerte durch Heuristiken zur Produktionsfehlererkennung zu erzielen.
KW  - Klassifikation
KW  - Information Retrieval
KW  - Text Mining
KW  - Arbeitsablaufplanung
KW  - Data Mining
KW  - Monadische Komposition
KW  - monadic composition
KW  - Digitalisierung
KW  - digitization
Y1  - 2014
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-104878
ER  - 
TY  - THES
A1  - Buckel, Thomas
T1  - Verbesserung und Überwachung von RFID-Infrastrukturen im Einzelhandel – ein aktionsforschungsbasierter Ansatz
T1  - Improvement and monitoring of RFID infrastructures in retail – a novel action research based approach
N2  - Die Grundlage für eine hohe Bestandsgenauigkeit ist die unternehmensübergreifende Identifikation und Nachverfolgung von Waren, die mit automatisierten Identifizierungstechnologien (Auto-ID-Technologien) ermöglicht wird. Die Einführung der Auto-ID-Technologie des Barcodes hat die Industrie vor mehr als 30 Jahren fundamental verändert. Darauf aufbauend versprechen neuere Auto-ID-Technologien wie die „Radio Frequency Identification“ (RFID) Probleme wie die Nichtverfügbarkeit von Waren, eine intransparente Diebstahlrate oder Warenschwund durch eine bessere Nachverfolgung aller Waren und eine höhere Bestandsgenauigkeit zu lösen. Die Vorteile von RFID gegenüber dem Barcode sind unter anderem die höhere Datendichte, die größere Robustheit gegenüber Umwelteinflüssen sowie die schnellere und mehrfache Erfassung von Gegenständen.

Viele Unternehmen sehen sich jedoch vor allem nach der Implementierung einer RFID-Infrastruktur mit einer Vielzahl von Problemen konfrontiert. Aspekte wie wenig Unterstützung durch das Management, interner Widerstand durch Mitarbeiter, Probleme bei der Integration von Hardware und Software und vor allem eine mangelnde Datenqualität verhindern, dass die prognostizierten positiven Effekte erreicht werden können. Derartige Phänomene werden passend unter dem Begriff „Credibility Gap“ zusammengefasst. Dieser beschreibt die Problematik, dass es insgesamt an Verfahren, Methoden und gezielter Unterstützung mangelt, um die in der Literatur umfangreich versprochenen positiven Effekte tatsächlich und nachhaltig zu realisieren. Passend werden die erwarteten Einsparungen und Verbesserungen durch den RFID-Einsatz oftmals als Expertenschätzungen und sogar als größtenteils rein spekulativ bezeichnet.

Das Ziel dieser Dissertation ist es, Praktikern das Erreichen der positiven RFID-Effekte zu ermöglichen. Hierzu wurden vielfältige Untersuchungen auf Basis einer langfristigen Kooperation mit einem der weltweit größten Bekleidungshändler durchgeführt, indem ein RFID-Implementierungsprojekt begleitet und intensiv mitgestaltet wurde. Zunächst wird bestätigt, dass die prognostizierten Vorteile der RFID-Technologie tatsächlich nicht allein durch die Implementierung der benötigten Infrastruktur erreicht werden können. Als Grund werden hohe Bestandsungenauigkeiten der verwendeten Bestandssysteme identifiziert, die sowohl auf technische als auch auf menschlich verursachte Fehler zurückzuführen sind. Als Folge ist die RFID-Datenqualität nicht verlässlich.

Die Dissertation setzt an den Problemen des Credibility Gap an und diagnostiziert bei einer bereits implementierten RFID-Infrastruktur zunächst die Fehler und Ursachen der mangelnden Datenqualität. Darauf aufbauend werden Maßnahmen und Handlungsanweisungen vorgestellt, mit deren Hilfe die Fehler behoben und die Infrastruktur schließlich verbessert und überwacht werden kann.

Um insgesamt die Anforderungen der Praxis und der Wissenschaft erfolgreich miteinander zu verknüpfen, wird als Forschungsmethode eine neuartige Kombination zweier Ausprägungen der Aktionsforschung verwendet. Als Ergebnis werden einerseits für Praktiker hilfreiche Frameworks und Tests zur Fehlerbehebung, Überwachungskennzahlen sowie Regeln des effektiven RFID-Systemmanagements beschrieben. Alle durchgeführten und in der Dissertation vorgestellten Maßnahmen führen nachweislich zu einer erhöhten Datenqualität eines implementierten RFID-Systems und stellen Möglichkeiten zur kennzahlenbasierten Visualisierung der RFID-Prozessperformance bereit. Andererseits wird ein Modell für die Verwendung der Aktionsforschung vorgeschlagen sowie eine umfangreiche Validierung der Methodik durchgeführt. Auf diese Weise wird neben der Praxisrelevanz der Ergebnisse auch die Präzision der Forschungsergebnisse sichergestellt.

Sämtliche Ergebnisse dienen als Basis für vielfältige Forschungsansätze. So ermöglichen eine höhere Verlässlichkeit und Datenqualität der RFID-Informationen aussagekräftigere Analysen. Weiter sind durch fehlerkorrigierte Prozessdaten neuartige Methoden des RFID-Data-Mining denkbar. Dieser Forschungsbereich ist nach wie vor größtenteils unberührt und bietet enormes Potential, weitere durch RFID in Aussicht gestellte Vorteile zu realisieren.
N2  - The automatic identification, tracking and tracing of goods is a prerequisite for stock accuracy. In the 1980s, the barcode as an automatic identification technology substantially changed retail operations. On this basis, the rise of radio-frequency identification (RFID) in the past years was meant to solve problems such as unavailability of products, theft and shrinkage through a higher product transparency along the supply chain. Benefits of using RFID instead of using the barcode are an increased data density, a higher degree of resistance to environmental effects as well as a bulk identification of items, among others.

However, companies still face a series of problems after implementing a RFID infrastructure. Issues like low management support, internal resistance among the staff, complex soft-/hardware integration issues as well as low data quality prevent companies from gaining the expected benefits. These phenomena properly are described as a „credibility gap“. This term refers to the lack of methods and procedures, to achieve the effects discussed in literature. Consequently, the expected benefits and improvements through using RFID technology are declared as expert estimates or even purely speculative assumptions.

The aim of this dissertation is to facilitate practitioners in gaining the positive effects of RFID. For this purpose, an investigation in the scope of an RFID implementation project conducted by one of the world’s largest fashion retailers has been accomplished. It can be initially confirmed that a RFID implementation alone does not necessarily result in (expected) benefits. Reasons identified are various inconsistencies between the RFID and the existing inventory system caused by both technical and human issues. As a result, the RFID stock information is not reliable.

Given the objective to solve the described problems associated with the credibility gap, reasons for poor data quality are identified in a first step. Subsequently, systematic procedures are introduced aiming to solve these issues in order to improve and to monitor the RFID infrastructure.

To expand scientific knowledge and simultaneously assist in practical problem-solving, a novel combination of two action research types is used. On the one hand, several error-handling procedures, monitoring options and specific rules for an effective RFID system management for practitioners are described. All introduced measures demonstrably increase data quality of the implemented RFID system and provide indicator-based tools to review the RFID process performance. On the other hand, an application model for action research including a validation of the specific research method is proposed. This approach contributes to both dimensions of the rigor and relevance framework.

These findings may serve as a basis for further research in various directions. An increased reliability of RFID information enables more meaningful analyses, accordingly. In addition, error-corrected processes and data lead to new methods of RFID data mining, which still poses a widely untapped area of research.
KW  - RFID
KW  - Aktionsforschung
KW  - Datenqualität
KW  - Einzelhandel
KW  - Data Mining
KW  - RFID
KW  - Action Research
KW  - Data Quality
KW  - Retail
KW  - Data Mining
Y1  - 2014
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-106719
ER  -