@phdthesis{Atzmueller2006, author = {Atzm{\"u}ller, Martin}, title = {Knowledge-Intensive Subgroup Mining - Techniques for Automatic and Interactive Discovery}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-21004}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2006}, abstract = {Data mining has proved its significance in various domains and applications. As an important subfield of the general data mining task, subgroup mining can be used, e.g., for marketing purposes in business domains, or for quality profiling and analysis in medical domains. The goal is to efficiently discover novel, potentially useful and ultimately interesting knowledge. However, in real-world situations these requirements often cannot be fulfilled, e.g., if the applied methods do not scale for large data sets, if too many results are presented to the user, or if many of the discovered patterns are already known to the user. This thesis proposes a combination of several techniques in order to cope with the sketched problems: We discuss automatic methods, including heuristic and exhaustive approaches, and especially present the novel SD-Map algorithm for exhaustive subgroup discovery that is fast and effective. For an interactive approach we describe techniques for subgroup introspection and analysis, and we present advanced visualization methods, e.g., the zoomtable that directly shows the most important parameters of a subgroup and that can be used for optimization and exploration. We also describe various visualizations for subgroup comparison and evaluation in order to support the user during these essential steps. Furthermore, we propose to include possibly available background knowledge that is easy to formalize into the mining process. We can utilize the knowledge in many ways: To focus the search process, to restrict the search space, and ultimately to increase the efficiency of the discovery method. We especially present background knowledge to be applied for filtering the elements of the problem domain, for constructing abstractions, for aggregating values of attributes, and for the post-processing of the discovered set of patterns. Finally, the techniques are combined into a knowledge-intensive process supporting both automatic and interactive methods for subgroup mining. The practical significance of the proposed approach strongly depends on the available tools. We introduce the VIKAMINE system as a highly-integrated environment for knowledge-intensive active subgroup mining. Also, we present an evaluation consisting of two parts: With respect to objective evaluation criteria, i.e., comparing the efficiency and the effectiveness of the subgroup discovery methods, we provide an experimental evaluation using generated data. For that task we present a novel data generator that allows a simple and intuitive specification of the data characteristics. The results of the experimental evaluation indicate that the novel SD-Map method outperforms the other described algorithms using data sets similar to the intended application concerning the efficiency, and also with respect to precision and recall for the heuristic methods. Subjective evaluation criteria include the user acceptance, the benefit of the approach, and the interestingness of the results. We present five case studies utilizing the presented techniques: The approach has been successfully implemented in medical and technical applications using real-world data sets. The method was very well accepted by the users that were able to discover novel, useful, and interesting knowledge.}, subject = {Data Mining}, language = {en} } @misc{Kaempgen2009, type = {Master Thesis}, author = {Kaempgen, Benedikt}, title = {Deskriptives Data-Mining f{\"u}r Entscheidungstr{\"a}ger: Eine Mehrfachfallstudie}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-46343}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2009}, abstract = {Das Potenzial der Wissensentdeckung in Daten wird h{\"a}ufig nicht ausgenutzt, was haupts{\"a}chlich auf Barrieren zwischen dem Entwicklerteam und dem Endnutzer des Data-Mining zur{\"u}ckzuf{\"u}hren ist. In dieser Arbeit wird ein transparenter Ansatz zum Beschreiben und Erkl{\"a}ren von Daten f{\"u}r Entscheidungstr{\"a}ger vorgestellt. In Entscheidungstr{\"a}ger-zentrierten Aufgaben werden die Projektanforderungen definiert und die Ergebnisse zu einer Geschichte zusammengestellt. Eine Anforderung besteht dabei aus einem tabellarischen Bericht und ggf. Mustern in seinem Inhalt, jeweils verst{\"a}ndlich f{\"u}r einen Entscheidungstr{\"a}ger. Die technischen Aufgaben bestehen aus einer Datenpr{\"u}fung, der Integration der Daten in einem Data-Warehouse sowie dem Generieren von Berichten und dem Entdecken von Mustern wie in den Anforderungen beschrieben. Mehrere Data-Mining-Projekte k{\"o}nnen durch Wissensmanagement sowie eine geeignete Infrastruktur voneinander profitieren. Der Ansatz wurde in zwei Projekten unter Verwendung von ausschließlich Open-Source-Software angewendet.}, subject = {Data Mining}, language = {de} } @phdthesis{Buckel2014, author = {Buckel, Thomas}, title = {Verbesserung und {\"U}berwachung von RFID-Infrastrukturen im Einzelhandel - ein aktionsforschungsbasierter Ansatz}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-106719}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Die Grundlage f{\"u}r eine hohe Bestandsgenauigkeit ist die unternehmens{\"u}bergreifende Identifikation und Nachverfolgung von Waren, die mit automatisierten Identifizierungstechnologien (Auto-ID-Technologien) erm{\"o}glicht wird. Die Einf{\"u}hrung der Auto-ID-Technologie des Barcodes hat die Industrie vor mehr als 30 Jahren fundamental ver{\"a}ndert. Darauf aufbauend versprechen neuere Auto-ID-Technologien wie die „Radio Frequency Identification" (RFID) Probleme wie die Nichtverf{\"u}gbarkeit von Waren, eine intransparente Diebstahlrate oder Warenschwund durch eine bessere Nachverfolgung aller Waren und eine h{\"o}here Bestandsgenauigkeit zu l{\"o}sen. Die Vorteile von RFID gegen{\"u}ber dem Barcode sind unter anderem die h{\"o}here Datendichte, die gr{\"o}ßere Robustheit gegen{\"u}ber Umwelteinfl{\"u}ssen sowie die schnellere und mehrfache Erfassung von Gegenst{\"a}nden. Viele Unternehmen sehen sich jedoch vor allem nach der Implementierung einer RFID-Infrastruktur mit einer Vielzahl von Problemen konfrontiert. Aspekte wie wenig Unterst{\"u}tzung durch das Management, interner Widerstand durch Mitarbeiter, Probleme bei der Integration von Hardware und Software und vor allem eine mangelnde Datenqualit{\"a}t verhindern, dass die prognostizierten positiven Effekte erreicht werden k{\"o}nnen. Derartige Ph{\"a}nomene werden passend unter dem Begriff „Credibility Gap" zusammengefasst. Dieser beschreibt die Problematik, dass es insgesamt an Verfahren, Methoden und gezielter Unterst{\"u}tzung mangelt, um die in der Literatur umfangreich versprochenen positiven Effekte tats{\"a}chlich und nachhaltig zu realisieren. Passend werden die erwarteten Einsparungen und Verbesserungen durch den RFID-Einsatz oftmals als Expertensch{\"a}tzungen und sogar als gr{\"o}ßtenteils rein spekulativ bezeichnet. Das Ziel dieser Dissertation ist es, Praktikern das Erreichen der positiven RFID-Effekte zu erm{\"o}glichen. Hierzu wurden vielf{\"a}ltige Untersuchungen auf Basis einer langfristigen Kooperation mit einem der weltweit gr{\"o}ßten Bekleidungsh{\"a}ndler durchgef{\"u}hrt, indem ein RFID-Implementierungsprojekt begleitet und intensiv mitgestaltet wurde. Zun{\"a}chst wird best{\"a}tigt, dass die prognostizierten Vorteile der RFID-Technologie tats{\"a}chlich nicht allein durch die Implementierung der ben{\"o}tigten Infrastruktur erreicht werden k{\"o}nnen. Als Grund werden hohe Bestandsungenauigkeiten der verwendeten Bestandssysteme identifiziert, die sowohl auf technische als auch auf menschlich verursachte Fehler zur{\"u}ckzuf{\"u}hren sind. Als Folge ist die RFID-Datenqualit{\"a}t nicht verl{\"a}sslich. Die Dissertation setzt an den Problemen des Credibility Gap an und diagnostiziert bei einer bereits implementierten RFID-Infrastruktur zun{\"a}chst die Fehler und Ursachen der mangelnden Datenqualit{\"a}t. Darauf aufbauend werden Maßnahmen und Handlungsanweisungen vorgestellt, mit deren Hilfe die Fehler behoben und die Infrastruktur schließlich verbessert und {\"u}berwacht werden kann. Um insgesamt die Anforderungen der Praxis und der Wissenschaft erfolgreich miteinander zu verkn{\"u}pfen, wird als Forschungsmethode eine neuartige Kombination zweier Auspr{\"a}gungen der Aktionsforschung verwendet. Als Ergebnis werden einerseits f{\"u}r Praktiker hilfreiche Frameworks und Tests zur Fehlerbehebung, {\"U}berwachungskennzahlen sowie Regeln des effektiven RFID-Systemmanagements beschrieben. Alle durchgef{\"u}hrten und in der Dissertation vorgestellten Maßnahmen f{\"u}hren nachweislich zu einer erh{\"o}hten Datenqualit{\"a}t eines implementierten RFID-Systems und stellen M{\"o}glichkeiten zur kennzahlenbasierten Visualisierung der RFID-Prozessperformance bereit. Andererseits wird ein Modell f{\"u}r die Verwendung der Aktionsforschung vorgeschlagen sowie eine umfangreiche Validierung der Methodik durchgef{\"u}hrt. Auf diese Weise wird neben der Praxisrelevanz der Ergebnisse auch die Pr{\"a}zision der Forschungsergebnisse sichergestellt. S{\"a}mtliche Ergebnisse dienen als Basis f{\"u}r vielf{\"a}ltige Forschungsans{\"a}tze. So erm{\"o}glichen eine h{\"o}here Verl{\"a}sslichkeit und Datenqualit{\"a}t der RFID-Informationen aussagekr{\"a}ftigere Analysen. Weiter sind durch fehlerkorrigierte Prozessdaten neuartige Methoden des RFID-Data-Mining denkbar. Dieser Forschungsbereich ist nach wie vor gr{\"o}ßtenteils unber{\"u}hrt und bietet enormes Potential, weitere durch RFID in Aussicht gestellte Vorteile zu realisieren.}, subject = {RFID}, language = {de} } @phdthesis{Schoeneberg2014, author = {Sch{\"o}neberg, Hendrik}, title = {Semiautomatische Metadaten-Extraktion und Qualit{\"a}tsmanagement in Workflow-Systemen zur Digitalisierung historischer Dokumente}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-104878}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Performing Named Entity Recognition on ancient documents is a time-consuming, complex and error-prone manual task. It is a prerequisite though to being able to identify related documents and correlate between named entities in distinct sources, helping to precisely recreate historic events. In order to reduce the manual effort, automated classification approaches could be leveraged. Classifying terms in ancient documents in an automated manner poses a difficult task due to the sources' challenging syntax and poor conservation states. This thesis introduces and evaluates approaches that can cope with complex syntactial environments by using statistical information derived from a term's context and combining it with domain-specific heuristic knowledge to perform a classification. Furthermore this thesis demonstrates how metadata generated by these approaches can be used as error heuristics to greatly improve the performance of workflow systems for digitizations of early documents.}, subject = {Klassifikation}, language = {de} } @phdthesis{Lemmerich2014, author = {Lemmerich, Florian}, title = {Novel Techniques for Efficient and Effective Subgroup Discovery}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-97812}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Large volumes of data are collected today in many domains. Often, there is so much data available, that it is difficult to identify the relevant pieces of information. Knowledge discovery seeks to obtain novel, interesting and useful information from large datasets. One key technique for that purpose is subgroup discovery. It aims at identifying descriptions for subsets of the data, which have an interesting distribution with respect to a predefined target concept. This work improves the efficiency and effectiveness of subgroup discovery in different directions. For efficient exhaustive subgroup discovery, algorithmic improvements are proposed for three important variations of the standard setting: First, novel optimistic estimate bounds are derived for subgroup discovery with numeric target concepts. These allow for skipping the evaluation of large parts of the search space without influencing the results. Additionally, necessary adaptations to data structures for this setting are discussed. Second, for exceptional model mining, that is, subgroup discovery with a model over multiple attributes as target concept, a generic extension of the well-known FP-tree data structure is introduced. The modified data structure stores intermediate condensed data representations, which depend on the chosen model class, in the nodes of the trees. This allows the application for many popular model classes. Third, subgroup discovery with generalization-aware measures is investigated. These interestingness measures compare the target share or mean value in the subgroup with the respective maximum value in all its generalizations. For this setting, a novel method for deriving optimistic estimates is proposed. In contrast to previous approaches, the novel measures are not exclusively based on the anti-monotonicity of instance coverage, but also takes the difference of coverage between the subgroup and its generalizations into account. In all three areas, the advances lead to runtime improvements of more than an order of magnitude. The second part of the contributions focuses on the \emph{effectiveness} of subgroup discovery. These improvements aim to identify more interesting subgroups in practical applications. For that purpose, the concept of expectation-driven subgroup discovery is introduced as a new family of interestingness measures. It computes the score of a subgroup based on the difference between the actual target share and the target share that could be expected given the statistics for the separate influence factors that are combined to describe the subgroup. In doing so, previously undetected interesting subgroups are discovered, while other, partially redundant findings are suppressed. Furthermore, this work also approaches practical issues of subgroup discovery: In that direction, the VIKAMINE II tool is presented, which extends its predecessor with a rebuild user interface, novel algorithms for automatic discovery, new interactive mining techniques, as well novel options for result presentation and introspection. Finally, some real-world applications are described that utilized the presented techniques. These include the identification of influence factors on the success and satisfaction of university students and the description of locations using tagging data of geo-referenced images.}, subject = {Data Mining}, language = {en} } @phdthesis{NavarroBullock2015, author = {Navarro Bullock, Beate}, title = {Privacy aware social information retrieval and spam filtering using folksonomies}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-120941}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2015}, abstract = {Social interactions as introduced by Web 2.0 applications during the last decade have changed the way the Internet is used. Today, it is part of our daily lives to maintain contacts through social networks, to comment on the latest developments in microblogging services or to save and share information snippets such as photos or bookmarks online. Social bookmarking systems are part of this development. Users can share links to interesting web pages by publishing bookmarks and providing descriptive keywords for them. The structure which evolves from the collection of annotated bookmarks is called a folksonomy. The sharing of interesting and relevant posts enables new ways of retrieving information from the Web. Users can search or browse the folksonomy looking at resources related to specific tags or users. Ranking methods known from search engines have been adjusted to facilitate retrieval in social bookmarking systems. Hence, social bookmarking systems have become an alternative or addendum to search engines. In order to better understand the commonalities and differences of social bookmarking systems and search engines, this thesis compares several aspects of the two systems' structure, usage behaviour and content. This includes the use of tags and query terms, the composition of the document collections and the rankings of bookmarks and search engine URLs. Searchers (recorded via session ids), their search terms and the clicked on URLs can be extracted from a search engine query logfile. They form similar links as can be found in folksonomies where a user annotates a resource with tags. We use this analogy to build a tripartite hypergraph from query logfiles (a logsonomy), and compare structural and semantic properties of log- and folksonomies. Overall, we have found similar behavioural, structural and semantic characteristics in both systems. Driven by this insight, we investigate, if folksonomy data can be of use in web information retrieval in a similar way to query log data: we construct training data from query logs and a folksonomy to build models for a learning-to-rank algorithm. First experiments show a positive correlation of ranking results generated from the ranking models of both systems. The research is based on various data collections from the social bookmarking systems BibSonomy and Delicious, Microsoft's search engine MSN (now Bing) and Google data. To maintain social bookmarking systems as a good source for information retrieval, providers need to fight spam. This thesis introduces and analyses different features derived from the specific characteristics of social bookmarking systems to be used in spam detection classification algorithms. Best results can be derived from a combination of profile, activity, semantic and location-based features. Based on the experiments, a spam detection framework which identifies and eliminates spam activities for the social bookmarking system BibSonomy has been developed. The storing and publication of user-related bookmarks and profile information raises questions about user data privacy. What kinds of personal information is collected and how do systems handle user-related items? In order to answer these questions, the thesis looks into the handling of data privacy in the social bookmarking system BibSonomy. Legal guidelines about how to deal with the private data collected and processed in social bookmarking systems are also presented. Experiments will show that the consideration of user data privacy in the process of feature design can be a first step towards strengthening data privacy.}, subject = {Information Retrieval}, language = {en} } @phdthesis{Winkler2015, author = {Winkler, Marco}, title = {On the Role of Triadic Substructures in Complex Networks}, publisher = {epubli GmbH}, address = {Berlin}, isbn = {978-3-7375-5654-5}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-116022}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2015}, abstract = {In the course of the growth of the Internet and due to increasing availability of data, over the last two decades, the field of network science has established itself as an own area of research. With quantitative scientists from computer science, mathematics, and physics working on datasets from biology, economics, sociology, political sciences, and many others, network science serves as a paradigm for interdisciplinary research. One of the major goals in network science is to unravel the relationship between topological graph structure and a network's function. As evidence suggests, systems from the same fields, i.e. with similar function, tend to exhibit similar structure. However, it is still vague whether a similar graph structure automatically implies likewise function. This dissertation aims at helping to bridge this gap, while particularly focusing on the role of triadic structures. After a general introduction to the main concepts of network science, existing work devoted to the relevance of triadic substructures is reviewed. A major challenge in modeling triadic structure is the fact that not all three-node subgraphs can be specified independently of each other, as pairs of nodes may participate in multiple of those triadic subgraphs. In order to overcome this obstacle, we suggest a novel class of generative network models based on so called Steiner triple systems. The latter are partitions of a graph's vertices into pair-disjoint triples (Steiner triples). Thus, the configurations on Steiner triples can be specified independently of each other without overdetermining the network's link structure. Subsequently, we investigate the most basic realization of this new class of models. We call it the triadic random graph model (TRGM). The TRGM is parametrized by a probability distribution over all possible triadic subgraph patterns. In order to generate a network instantiation of the model, for all Steiner triples in the system, a pattern is drawn from the distribution and adjusted randomly on the Steiner triple. We calculate the degree distribution of the TRGM analytically and find it to be similar to a Poissonian distribution. Furthermore, it is shown that TRGMs possess non-trivial triadic structure. We discover inevitable correlations in the abundance of certain triadic subgraph patterns which should be taken into account when attributing functional relevance to particular motifs - patterns which occur significantly more frequently than expected at random. Beyond, the strong impact of the probability distributions on the Steiner triples on the occurrence of triadic subgraphs over the whole network is demonstrated. This interdependence allows us to design ensembles of networks with predefined triadic substructure. Hence, TRGMs help to overcome the lack of generative models needed for assessing the relevance of triadic structure. We further investigate whether motifs occur homogeneously or heterogeneously distributed over a graph. Therefore, we study triadic subgraph structures in each node's neighborhood individually. In order to quantitatively measure structure from an individual node's perspective, we introduce an algorithm for node-specific pattern mining for both directed unsigned, and undirected signed networks. Analyzing real-world datasets, we find that there are networks in which motifs are distributed highly heterogeneously, bound to the proximity of only very few nodes. Moreover, we observe indication for the potential sensitivity of biological systems to a targeted removal of these critical vertices. In addition, we study whole graphs with respect to the homogeneity and homophily of their node-specific triadic structure. The former describes the similarity of subgraph distributions in the neighborhoods of individual vertices. The latter quantifies whether connected vertices are structurally more similar than non-connected ones. We discover these features to be characteristic for the networks' origins. Moreover, clustering the vertices of graphs regarding their triadic structure, we investigate structural groups in the neural network of C. elegans, the international airport-connection network, and the global network of diplomatic sentiments between countries. For the latter we find evidence for the instability of triangles considered socially unbalanced according to sociological theories. Finally, we utilize our TRGM to explore ensembles of networks with similar triadic substructure in terms of the evolution of dynamical processes acting on their nodes. Focusing on oscillators, coupled along the graphs' edges, we observe that certain triad motifs impose a clear signature on the systems' dynamics, even when embedded in a larger network structure.}, subject = {Netzwerk}, language = {en} } @phdthesis{Ring2021, author = {Ring, Markus}, title = {Detektion sicherheitskritischer Ereignisse in Unternehmensnetzwerken mittels Data Mining}, doi = {10.25972/OPUS-21956}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-219561}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2021}, abstract = {E-Mails, Online Banking und Videokonferenzen sind aus unserem heutigen Alltag nicht mehr wegzudenken. Bei all diesen Aktivit{\"a}ten werden zahlreiche personenbezogene Informationen und vertrauensw{\"u}rdige Daten digital {\"u}bertragen und gespeichert. Zur Sicherstellung der digitalen Daten vor unbefugten Zugriffen und Manipulationen existieren verschiedenste Konzepte, Methoden und Verfahren, die sich unter dem Begriff IT-Sicherheit zusammenfassen lassen. Klassische Sicherheitsl{\"o}sungen aus dem Bereich IT-Sicherheit sind Firewalls und Virenscanner. Derartige Ans{\"a}tze sind meist regelbasiert und pr{\"u}fen Dateien beziehungsweise eingehenden Netzwerkverkehr anhand einer Liste bekannter Angriffssignaturen. Folglich k{\"o}nnen diese Systeme nur bereits bekannte Angriffsszenarien detektieren und bieten keinen Schutz vor neuartigen Angriffen. Somit entsteht im Bereich IT-Sicherheit ein Wettlauf zwischen Hackern und IT-Sicherheitsexperten, bei dem die Hacker stets nach neuen Mitteln und Wegen suchen, die existierenden Sicherheitsl{\"o}sungen zu {\"u}berwinden, w{\"a}hrend IT-Sicherheitsexperten stetig ihre Schutzmechanismen verbessern. Die vorliegende Arbeit widmet sich der Detektion von Angriffsszenarien in Unternehmensnetzwerken mithilfe von Data Mining-Methoden. Diese Methoden sind in der Lage anhand von repr{\"a}sentativen Daten die darin enthaltenen Strukturen zu erlernen und zu generalisieren. Folglich k{\"o}nnen sich Data Mining-Methoden grunds{\"a}tzlich zur Detektion neuer Angriffsszenarien eignen, wenn diese Angriffsszenarien {\"U}berschneidungen mit bekannten Angriffsszenarien aufweisen oder sich wesentlich vom bekannten Normalverhalten unterscheiden. In dieser Arbeit werden netzwerkbasierte Daten im NetFlow Format analysiert, da diese einen aggregierten {\"U}berblick {\"u}ber das Geschehen im Netzwerk bieten. H{\"a}ufig k{\"o}nnen Netzwerkdaten aufgrund datenschutzrechtlicher Bedenken nicht ver{\"o}ffentlicht werden, was f{\"u}r die Erzeugung synthetischer, aber realistischer Netzwerkdaten spricht. Des Weiteren f{\"u}hrt die Beschaffenheit der Netzwerkdaten dazu, dass eine Kombination von kontinuierlichen und kategorischen Attributen analysiert werden muss, was vor allem das Vergleichen der Daten bez{\"u}glich ihrer {\"A}hnlichkeit erschwert. Diese Arbeit liefert methodische Beitr{\"a}ge zu jeder der drei genannten Herausforderungen. Im Bereich der Abstandsberechnung kategorischer Werte werden mit ConDist und IP2Vec zwei unterschiedliche Ans{\"a}tze entwickelt. ConDist ist ein universell einsetzbares Abstandsmaß zur Berechnung von Abst{\"a}nden zwischen Datenpunkten, die aus kontinuierlichen und kategorischen Attributen bestehen. IP2Vec ist auf Netzwerkdaten spezialisiert und transformiert kategorische Werte in kontinuierliche Vektoren. Im Bereich der Generierung realistischer Netzwerkdaten werden neben einer ausf{\"u}hrlichen Literaturrecherche zwei unterschiedliche Ans{\"a}tze vorgestellt. Zun{\"a}chst wird ein auf Simulation basierter Ansatz zur Generierung flowbasierter Datens{\"a}tze entwickelt. Dieser Ansatz basiert auf einer Testumgebung und simuliert typische Benutzeraktivit{\"a}ten durch automatisierte Python Skripte. Parallel hierzu wird ein zweiter Ansatz zur synthetischen Generierung flowbasierter Netzwerkdaten durch Modellierung mithilfe von Generative Adversarial Networks entwickelt. Dieser Ansatz erlernt die zugrundeliegenden Eigenschaften der Netzwerkdaten und ist anschließend in der Lage, neue Netzwerkdaten mit gleichen Eigenschaften zu generieren.W{\"a}hrend sich der erste Ansatz zur Erstellung neuer Datens{\"a}tze eignet, kann der zweite Ansatz zur Anreicherung existierender Datens{\"a}tze genutzt werden. Schließlich liefert diese Arbeit noch zwei Beitr{\"a}ge zur Detektion von Angriffsszenarien. Im ersten Beitrag wird ein Konzept zur Detektion von Angriffsszenarien entwickelt, welches sich an die typischen Phasen eines Angriffsszenarios orientiert. Im zweiten Beitrag werden eine {\"u}berwachte und eine un{\"u}berwachte Methode zur Detektion von langsamen Port Scans vorgestellt.}, subject = {Data Mining}, language = {de} }