TY - THES A1 - Atzmüller, Martin T1 - Knowledge-Intensive Subgroup Mining - Techniques for Automatic and Interactive Discovery T1 - Wissensintensive Subgruppenentdeckung – Automatische und Interaktive Entdeckungsmethoden N2 - Data mining has proved its significance in various domains and applications. As an important subfield of the general data mining task, subgroup mining can be used, e.g., for marketing purposes in business domains, or for quality profiling and analysis in medical domains. The goal is to efficiently discover novel, potentially useful and ultimately interesting knowledge. However, in real-world situations these requirements often cannot be fulfilled, e.g., if the applied methods do not scale for large data sets, if too many results are presented to the user, or if many of the discovered patterns are already known to the user. This thesis proposes a combination of several techniques in order to cope with the sketched problems: We discuss automatic methods, including heuristic and exhaustive approaches, and especially present the novel SD-Map algorithm for exhaustive subgroup discovery that is fast and effective. For an interactive approach we describe techniques for subgroup introspection and analysis, and we present advanced visualization methods, e.g., the zoomtable that directly shows the most important parameters of a subgroup and that can be used for optimization and exploration. We also describe various visualizations for subgroup comparison and evaluation in order to support the user during these essential steps. Furthermore, we propose to include possibly available background knowledge that is easy to formalize into the mining process. We can utilize the knowledge in many ways: To focus the search process, to restrict the search space, and ultimately to increase the efficiency of the discovery method. We especially present background knowledge to be applied for filtering the elements of the problem domain, for constructing abstractions, for aggregating values of attributes, and for the post-processing of the discovered set of patterns. Finally, the techniques are combined into a knowledge-intensive process supporting both automatic and interactive methods for subgroup mining. The practical significance of the proposed approach strongly depends on the available tools. We introduce the VIKAMINE system as a highly-integrated environment for knowledge-intensive active subgroup mining. Also, we present an evaluation consisting of two parts: With respect to objective evaluation criteria, i.e., comparing the efficiency and the effectiveness of the subgroup discovery methods, we provide an experimental evaluation using generated data. For that task we present a novel data generator that allows a simple and intuitive specification of the data characteristics. The results of the experimental evaluation indicate that the novel SD-Map method outperforms the other described algorithms using data sets similar to the intended application concerning the efficiency, and also with respect to precision and recall for the heuristic methods. Subjective evaluation criteria include the user acceptance, the benefit of the approach, and the interestingness of the results. We present five case studies utilizing the presented techniques: The approach has been successfully implemented in medical and technical applications using real-world data sets. The method was very well accepted by the users that were able to discover novel, useful, and interesting knowledge. N2 - Data Mining wird mit großem Erfolg in vielen Domänen angewandt. Subgruppenentdeckung als wichtiges Teilgebiet des Data Mining kann zum Beispiel gut im Marketing, oder zur Qualitätskontrolle und Analyse in medizinischen Domänen eingesetzt werden. Das allgemeine Ziel besteht darin, potentiell nützliches and letztendlich interessantes Wissen zu entdecken. Jedoch können diese Anforderungen im praktischen Einsatz oft nicht erfüllt werden, etwa falls die eingesetzten Methoden eine schlechte Skalierbarkeit für größere Datensätze aufweisen, falls dem Benutzer zu viele Ergebnisse präsentiert werden, oder falls der Anwender viele der gefundenen Subgruppen-Muster schon kennt. Diese Arbeit stellt eine Kombination von automatischen und interaktiven Techniken vor, um mit den genannten Problemen besser umgehen zu können: Es werden automatische heuristische und vollständige Subgruppenentdeckungs-Verfahren diskutiert, und insbesondere der neuartige SD-Map Algorithmus zur vollständigen Subgruppenentdeckung vorgestellt der sowohl schnell als auch effektiv ist. Bezüglich der interaktiven Techniken werden Methoden zur Subgruppen-Introspektion und Analyse, und fortgeschrittene Visualisierungstechniken vorgestellt, beispielsweise die Zoomtable, die die für die Subgruppenentdeckung wichtigsten Parameter direkt visualisiert und zur Optimierung und Exploration eingesetzt werden kann. Zusätzlich werden verschiedene Visualisierungen zum Vergleich und zur Evaluation von Subgruppen beschrieben um den Benutzer bei diesen essentiellen Schritten zu unterstützen. Weiterhin wird leicht zu formalisierendes Hintergrundwissen vorgestellt, das im Subgruppenentdeckungsprozess in vielfältiger Weise eingesetzt werden kann: Um den Entdeckungsprozess zu fokussieren, den Suchraum einzuschränken, und letztendlich die Effizienz der Entdeckungsmethode zu erhöhen. Insbesondere wird Hintergrundwissen eingeführt, um die Elemente der Anwendungsdomäne zu filtern, um geeignete Abstraktionen zu definieren, Werte zusammenzufassen, und die gefundenen Subgruppenmuster nachzubearbeiten. Schließlich werden diese Techniken in einen wissensintensiven Prozess integriert, der sowohl automatische als auch interaktive Methoden zur Subgruppenentdeckung einschließt. Die praktische Bedeutung des vorgestellten Ansatzes hängt stark von den verfügbaren Werkzeugen ab. Dazu wird das VIKAMINE System als hochintegrierte Umgebung für die wissensintensive aktive Subgruppenentdeckung präsentiert. Die Evaluation des Ansatzes besteht aus zwei Teilen: Hinsichtlich einer Evaluation von Effizienz und Effektivität der Verfahren wird eine experimentelle Evaluation mit synthetischen Daten vorgestellt. Für diesen Zweck wird ein neuartiger in der Arbeit entwickelter Datengenerator angewandt, der eine einfache und intuitive Spezifikation der Datencharakteristiken erlaubt. Für die Evaluation des Ansatzes wurden Daten erzeugt, die ähnliche Charakteristiken aufweisen wie die Daten des angestrebten Einsatzbereichs. Die Ergebnisse der Evaluation zeigen, dass der neuartige SD-Map Algorithmus den anderen in der Arbeit beschriebenen Standard-Algorithmen überlegen ist. Sowohl hinsichtlich der Effizienz, als auch von Precision/Recall bezogen auf die heuristischen Algorithmen bietet SD-Map deutliche Vorteile. Subjektive Evaluationskriterien sind durch die Benutzerakzeptanz, den Nutzen des Ansatzes, und die Interessantheit der Ergebnisse gegeben. Es werden fünf Fallstudien für den Einsatz der vorgestellten Techniken beschrieben: Der Ansatz wurde in medizinischen und technischen Anwendungen mit realen Daten eingesetzt. Dabei wurde er von den Benutzern sehr gut angenommen, und im praktischen Einsatz konnte neuartiges, nützliches, und interessantes Wissen entdeckt werden. KW - Data Mining KW - Algorithmus KW - Visualisierung KW - Subgruppenentdeckung KW - Hintergrundwissen KW - Wissensendeckung KW - Data Mining KW - Visualisierung KW - Subgroup Mining KW - Background Knowledge KW - Knowledge Discovery KW - Data Mining KW - Visualization Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-21004 ER - TY - THES A1 - Kaempgen, Benedikt T1 - Deskriptives Data-Mining für Entscheidungsträger: Eine Mehrfachfallstudie T1 - Descriptive data mining for decision-makers: a multiple case study N2 - Das Potenzial der Wissensentdeckung in Daten wird häufig nicht ausgenutzt, was hauptsächlich auf Barrieren zwischen dem Entwicklerteam und dem Endnutzer des Data-Mining zurückzuführen ist. In dieser Arbeit wird ein transparenter Ansatz zum Beschreiben und Erklären von Daten für Entscheidungsträger vorgestellt. In Entscheidungsträger-zentrierten Aufgaben werden die Projektanforderungen definiert und die Ergebnisse zu einer Geschichte zusammengestellt. Eine Anforderung besteht dabei aus einem tabellarischen Bericht und ggf. Mustern in seinem Inhalt, jeweils verständlich für einen Entscheidungsträger. Die technischen Aufgaben bestehen aus einer Datenprüfung, der Integration der Daten in einem Data-Warehouse sowie dem Generieren von Berichten und dem Entdecken von Mustern wie in den Anforderungen beschrieben. Mehrere Data-Mining-Projekte können durch Wissensmanagement sowie eine geeignete Infrastruktur voneinander profitieren. Der Ansatz wurde in zwei Projekten unter Verwendung von ausschließlich Open-Source-Software angewendet. N2 - Despite high potential of data mining in business and science many projects fail due to barriers between the developer team and the end user. In this work a more transparent approach to describing and explaining data to a decision-maker is presented. In decision-maker-centric tasks project requirements are defined and finally the results composed to a story. A requirement is made of a tabular report and possibly patterns in its data, each understandable to a decision-maker. The technical tasks consist of a data assay, the integration of data within a data warehouse and, as required, the creation of reports and the discovery of patterns. Multiple data mining projects benefit from each other through knowledge management and a common infrastructure. The approach has been applied to two projects exclusively using open source systems. KW - Data Mining KW - Entscheidungsträger KW - Fallstudie KW - Methodologie KW - Endnutzer KW - Business Intelligence KW - Open Source KW - data mining KW - case study KW - process model KW - end user KW - open source Y1 - 2009 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-46343 ER - TY - THES A1 - Buckel, Thomas T1 - Verbesserung und Überwachung von RFID-Infrastrukturen im Einzelhandel – ein aktionsforschungsbasierter Ansatz T1 - Improvement and monitoring of RFID infrastructures in retail – a novel action research based approach N2 - Die Grundlage für eine hohe Bestandsgenauigkeit ist die unternehmensübergreifende Identifikation und Nachverfolgung von Waren, die mit automatisierten Identifizierungstechnologien (Auto-ID-Technologien) ermöglicht wird. Die Einführung der Auto-ID-Technologie des Barcodes hat die Industrie vor mehr als 30 Jahren fundamental verändert. Darauf aufbauend versprechen neuere Auto-ID-Technologien wie die „Radio Frequency Identification“ (RFID) Probleme wie die Nichtverfügbarkeit von Waren, eine intransparente Diebstahlrate oder Warenschwund durch eine bessere Nachverfolgung aller Waren und eine höhere Bestandsgenauigkeit zu lösen. Die Vorteile von RFID gegenüber dem Barcode sind unter anderem die höhere Datendichte, die größere Robustheit gegenüber Umwelteinflüssen sowie die schnellere und mehrfache Erfassung von Gegenständen. Viele Unternehmen sehen sich jedoch vor allem nach der Implementierung einer RFID-Infrastruktur mit einer Vielzahl von Problemen konfrontiert. Aspekte wie wenig Unterstützung durch das Management, interner Widerstand durch Mitarbeiter, Probleme bei der Integration von Hardware und Software und vor allem eine mangelnde Datenqualität verhindern, dass die prognostizierten positiven Effekte erreicht werden können. Derartige Phänomene werden passend unter dem Begriff „Credibility Gap“ zusammengefasst. Dieser beschreibt die Problematik, dass es insgesamt an Verfahren, Methoden und gezielter Unterstützung mangelt, um die in der Literatur umfangreich versprochenen positiven Effekte tatsächlich und nachhaltig zu realisieren. Passend werden die erwarteten Einsparungen und Verbesserungen durch den RFID-Einsatz oftmals als Expertenschätzungen und sogar als größtenteils rein spekulativ bezeichnet. Das Ziel dieser Dissertation ist es, Praktikern das Erreichen der positiven RFID-Effekte zu ermöglichen. Hierzu wurden vielfältige Untersuchungen auf Basis einer langfristigen Kooperation mit einem der weltweit größten Bekleidungshändler durchgeführt, indem ein RFID-Implementierungsprojekt begleitet und intensiv mitgestaltet wurde. Zunächst wird bestätigt, dass die prognostizierten Vorteile der RFID-Technologie tatsächlich nicht allein durch die Implementierung der benötigten Infrastruktur erreicht werden können. Als Grund werden hohe Bestandsungenauigkeiten der verwendeten Bestandssysteme identifiziert, die sowohl auf technische als auch auf menschlich verursachte Fehler zurückzuführen sind. Als Folge ist die RFID-Datenqualität nicht verlässlich. Die Dissertation setzt an den Problemen des Credibility Gap an und diagnostiziert bei einer bereits implementierten RFID-Infrastruktur zunächst die Fehler und Ursachen der mangelnden Datenqualität. Darauf aufbauend werden Maßnahmen und Handlungsanweisungen vorgestellt, mit deren Hilfe die Fehler behoben und die Infrastruktur schließlich verbessert und überwacht werden kann. Um insgesamt die Anforderungen der Praxis und der Wissenschaft erfolgreich miteinander zu verknüpfen, wird als Forschungsmethode eine neuartige Kombination zweier Ausprägungen der Aktionsforschung verwendet. Als Ergebnis werden einerseits für Praktiker hilfreiche Frameworks und Tests zur Fehlerbehebung, Überwachungskennzahlen sowie Regeln des effektiven RFID-Systemmanagements beschrieben. Alle durchgeführten und in der Dissertation vorgestellten Maßnahmen führen nachweislich zu einer erhöhten Datenqualität eines implementierten RFID-Systems und stellen Möglichkeiten zur kennzahlenbasierten Visualisierung der RFID-Prozessperformance bereit. Andererseits wird ein Modell für die Verwendung der Aktionsforschung vorgeschlagen sowie eine umfangreiche Validierung der Methodik durchgeführt. Auf diese Weise wird neben der Praxisrelevanz der Ergebnisse auch die Präzision der Forschungsergebnisse sichergestellt. Sämtliche Ergebnisse dienen als Basis für vielfältige Forschungsansätze. So ermöglichen eine höhere Verlässlichkeit und Datenqualität der RFID-Informationen aussagekräftigere Analysen. Weiter sind durch fehlerkorrigierte Prozessdaten neuartige Methoden des RFID-Data-Mining denkbar. Dieser Forschungsbereich ist nach wie vor größtenteils unberührt und bietet enormes Potential, weitere durch RFID in Aussicht gestellte Vorteile zu realisieren. N2 - The automatic identification, tracking and tracing of goods is a prerequisite for stock accuracy. In the 1980s, the barcode as an automatic identification technology substantially changed retail operations. On this basis, the rise of radio-frequency identification (RFID) in the past years was meant to solve problems such as unavailability of products, theft and shrinkage through a higher product transparency along the supply chain. Benefits of using RFID instead of using the barcode are an increased data density, a higher degree of resistance to environmental effects as well as a bulk identification of items, among others. However, companies still face a series of problems after implementing a RFID infrastructure. Issues like low management support, internal resistance among the staff, complex soft-/hardware integration issues as well as low data quality prevent companies from gaining the expected benefits. These phenomena properly are described as a „credibility gap“. This term refers to the lack of methods and procedures, to achieve the effects discussed in literature. Consequently, the expected benefits and improvements through using RFID technology are declared as expert estimates or even purely speculative assumptions. The aim of this dissertation is to facilitate practitioners in gaining the positive effects of RFID. For this purpose, an investigation in the scope of an RFID implementation project conducted by one of the world’s largest fashion retailers has been accomplished. It can be initially confirmed that a RFID implementation alone does not necessarily result in (expected) benefits. Reasons identified are various inconsistencies between the RFID and the existing inventory system caused by both technical and human issues. As a result, the RFID stock information is not reliable. Given the objective to solve the described problems associated with the credibility gap, reasons for poor data quality are identified in a first step. Subsequently, systematic procedures are introduced aiming to solve these issues in order to improve and to monitor the RFID infrastructure. To expand scientific knowledge and simultaneously assist in practical problem-solving, a novel combination of two action research types is used. On the one hand, several error-handling procedures, monitoring options and specific rules for an effective RFID system management for practitioners are described. All introduced measures demonstrably increase data quality of the implemented RFID system and provide indicator-based tools to review the RFID process performance. On the other hand, an application model for action research including a validation of the specific research method is proposed. This approach contributes to both dimensions of the rigor and relevance framework. These findings may serve as a basis for further research in various directions. An increased reliability of RFID information enables more meaningful analyses, accordingly. In addition, error-corrected processes and data lead to new methods of RFID data mining, which still poses a widely untapped area of research. KW - RFID KW - Aktionsforschung KW - Datenqualität KW - Einzelhandel KW - Data Mining KW - RFID KW - Action Research KW - Data Quality KW - Retail KW - Data Mining Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-106719 ER - TY - THES A1 - Schöneberg, Hendrik T1 - Semiautomatische Metadaten-Extraktion und Qualitätsmanagement in Workflow-Systemen zur Digitalisierung historischer Dokumente T1 - Semi-automated Metadata Extraction and Quality Management in Workflow Systems for Digitizations of Early Documents N2 - Performing Named Entity Recognition on ancient documents is a time-consuming, complex and error-prone manual task. It is a prerequisite though to being able to identify related documents and correlate between named entities in distinct sources, helping to precisely recreate historic events. In order to reduce the manual effort, automated classification approaches could be leveraged. Classifying terms in ancient documents in an automated manner poses a difficult task due to the sources’ challenging syntax and poor conservation states. This thesis introduces and evaluates approaches that can cope with complex syntactial environments by using statistical information derived from a term’s context and combining it with domain-specific heuristic knowledge to perform a classification. Furthermore this thesis demonstrates how metadata generated by these approaches can be used as error heuristics to greatly improve the performance of workflow systems for digitizations of early documents. N2 - Die Extraktion von Metadaten aus historischen Dokumenten ist eine zeitintensive, komplexe und höchst fehleranfällige Tätigkeit, die üblicherweise vom menschlichen Experten übernommen werden muss. Sie ist jedoch notwendig, um Bezüge zwischen Dokumenten herzustellen, Suchanfragen zu historischen Ereignissen korrekt zu beantworten oder semantische Verknüpfungen aufzubauen. Um den manuellen Aufwand dieser Aufgabe reduzieren zu können, sollen Verfahren der Named Entity Recognition angewendet werden. Die Klassifikation von Termen in historischen Handschriften stellt jedoch eine große Herausforderung dar, da die Domäne eine hohe Schreibweisenvarianz durch unter anderem nur konventionell vereinbarte Orthographie mit sich bringt. Diese Arbeit stellt Verfahren vor, die auch in komplexen syntaktischen Umgebungen arbeiten können, indem sie auf Informationen aus dem Kontext der zu klassifizierenden Terme zurückgreifen und diese mit domänenspezifischen Heuristiken kombinieren. Weiterhin wird evaluiert, wie die so gewonnenen Metadaten genutzt werden können, um in Workflow-Systemen zur Digitalisierung historischer Handschriften Mehrwerte durch Heuristiken zur Produktionsfehlererkennung zu erzielen. KW - Klassifikation KW - Information Retrieval KW - Text Mining KW - Arbeitsablaufplanung KW - Data Mining KW - Monadische Komposition KW - monadic composition KW - Digitalisierung KW - digitization Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-104878 ER - TY - THES A1 - Lemmerich, Florian T1 - Novel Techniques for Efficient and Effective Subgroup Discovery T1 - Neue Techniken für effiziente und effektive Subgruppenentdeckung N2 - Large volumes of data are collected today in many domains. Often, there is so much data available, that it is difficult to identify the relevant pieces of information. Knowledge discovery seeks to obtain novel, interesting and useful information from large datasets. One key technique for that purpose is subgroup discovery. It aims at identifying descriptions for subsets of the data, which have an interesting distribution with respect to a predefined target concept. This work improves the efficiency and effectiveness of subgroup discovery in different directions. For efficient exhaustive subgroup discovery, algorithmic improvements are proposed for three important variations of the standard setting: First, novel optimistic estimate bounds are derived for subgroup discovery with numeric target concepts. These allow for skipping the evaluation of large parts of the search space without influencing the results. Additionally, necessary adaptations to data structures for this setting are discussed. Second, for exceptional model mining, that is, subgroup discovery with a model over multiple attributes as target concept, a generic extension of the well-known FP-tree data structure is introduced. The modified data structure stores intermediate condensed data representations, which depend on the chosen model class, in the nodes of the trees. This allows the application for many popular model classes. Third, subgroup discovery with generalization-aware measures is investigated. These interestingness measures compare the target share or mean value in the subgroup with the respective maximum value in all its generalizations. For this setting, a novel method for deriving optimistic estimates is proposed. In contrast to previous approaches, the novel measures are not exclusively based on the anti-monotonicity of instance coverage, but also takes the difference of coverage between the subgroup and its generalizations into account. In all three areas, the advances lead to runtime improvements of more than an order of magnitude. The second part of the contributions focuses on the \emph{effectiveness} of subgroup discovery. These improvements aim to identify more interesting subgroups in practical applications. For that purpose, the concept of expectation-driven subgroup discovery is introduced as a new family of interestingness measures. It computes the score of a subgroup based on the difference between the actual target share and the target share that could be expected given the statistics for the separate influence factors that are combined to describe the subgroup. In doing so, previously undetected interesting subgroups are discovered, while other, partially redundant findings are suppressed. Furthermore, this work also approaches practical issues of subgroup discovery: In that direction, the VIKAMINE II tool is presented, which extends its predecessor with a rebuild user interface, novel algorithms for automatic discovery, new interactive mining techniques, as well novel options for result presentation and introspection. Finally, some real-world applications are described that utilized the presented techniques. These include the identification of influence factors on the success and satisfaction of university students and the description of locations using tagging data of geo-referenced images. N2 - Neue Techniken für effiziente und effektive Subgruppenentdeckung KW - Data Mining KW - Wissensextraktion KW - Subgroup Discovery KW - Pattern Mining Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-97812 ER - TY - THES A1 - Navarro Bullock, Beate T1 - Privacy aware social information retrieval and spam filtering using folksonomies T1 - Suche und Spam Entdeckung anhand von Folksonomien unter Beachtung datenschutzrelevanter Aspekte N2 - Social interactions as introduced by Web 2.0 applications during the last decade have changed the way the Internet is used. Today, it is part of our daily lives to maintain contacts through social networks, to comment on the latest developments in microblogging services or to save and share information snippets such as photos or bookmarks online. Social bookmarking systems are part of this development. Users can share links to interesting web pages by publishing bookmarks and providing descriptive keywords for them. The structure which evolves from the collection of annotated bookmarks is called a folksonomy. The sharing of interesting and relevant posts enables new ways of retrieving information from the Web. Users can search or browse the folksonomy looking at resources related to specific tags or users. Ranking methods known from search engines have been adjusted to facilitate retrieval in social bookmarking systems. Hence, social bookmarking systems have become an alternative or addendum to search engines. In order to better understand the commonalities and differences of social bookmarking systems and search engines, this thesis compares several aspects of the two systems' structure, usage behaviour and content. This includes the use of tags and query terms, the composition of the document collections and the rankings of bookmarks and search engine URLs. Searchers (recorded via session ids), their search terms and the clicked on URLs can be extracted from a search engine query logfile. They form similar links as can be found in folksonomies where a user annotates a resource with tags. We use this analogy to build a tripartite hypergraph from query logfiles (a logsonomy), and compare structural and semantic properties of log- and folksonomies. Overall, we have found similar behavioural, structural and semantic characteristics in both systems. Driven by this insight, we investigate, if folksonomy data can be of use in web information retrieval in a similar way to query log data: we construct training data from query logs and a folksonomy to build models for a learning-to-rank algorithm. First experiments show a positive correlation of ranking results generated from the ranking models of both systems. The research is based on various data collections from the social bookmarking systems BibSonomy and Delicious, Microsoft's search engine MSN (now Bing) and Google data. To maintain social bookmarking systems as a good source for information retrieval, providers need to fight spam. This thesis introduces and analyses different features derived from the specific characteristics of social bookmarking systems to be used in spam detection classification algorithms. Best results can be derived from a combination of profile, activity, semantic and location-based features. Based on the experiments, a spam detection framework which identifies and eliminates spam activities for the social bookmarking system BibSonomy has been developed. The storing and publication of user-related bookmarks and profile information raises questions about user data privacy. What kinds of personal information is collected and how do systems handle user-related items? In order to answer these questions, the thesis looks into the handling of data privacy in the social bookmarking system BibSonomy. Legal guidelines about how to deal with the private data collected and processed in social bookmarking systems are also presented. Experiments will show that the consideration of user data privacy in the process of feature design can be a first step towards strengthening data privacy. N2 - Soziale Interaktion, wie sie im letzten Jahrzehnt durch Web 2.0 Anwendungen eingeführt wurde, änderte die Art und Weise wie wir das Internet nutzen. Heute gehört es zum Alltag, Kontakte in sozialen Netzwerken zu pflegen, die aktuellsten Entwicklungen in Mikroblogging - Anwendungen zu kommentieren, oder interessante Informationen wie Fotos oder Weblinks digital zu speichern und zu teilen. Soziale Lesezeichensysteme sind ein Teil dieser Entwicklung. Nutzer können Links zu interessanten Webseiten teilen, indem sie diese mit aussagekräftigen Begriffen (Tags) versehen und veröffentlichen. Die Struktur, die aus der Sammlung von annotierten Lesezeichen entsteht, wird Folksonomy genannt. Nutzer können diese durchforsten und nach Links mit bestimmten Tags oder von bestimmten Nutzern suchen. Ranking Methoden, die schon in Suchmaschinen implementiert wurden, wurden angepasst, um die Suche in sozialen Lesezeichensystemen zu erleichtern. So haben sich diese Systeme mittlerweile zu einer ernsthaften Alternative oder Ergänzung zu traditionellen Suchmaschinen entwickelt. Um Gemeinsamkeiten und Unterschiede in der Struktur, Nutzung und in den Inhalten von sozialen Lesezeichensystemen und Suchmaschinen besser zu verstehen, werden in dieser Arbeit die Verwendung von Tags und Suchbegriffen, die Zusammensetzung der Dokumentensammlungen und der Aufbau der Rankings verglichen und diskutiert. Aus den Suchmaschinennutzern eines Logfiles, ihren Anfragen und den geklickten Rankingergebnissen lässt sich eine ähnlich tripartite Struktur wie die der Folksonomy aufbauen. Die Häufigkeitsverteilungen sowie strukturellen Eigenschaften dieses Graphen werden mit der Struktur einer Folksonomy verglichen. Insgesamt lassen sich ein ähnliches Nutzerverhalten und ähnliche Strukturen aus beiden Ansätzen ableiten. Diese Erkenntnis nutzend werden im letzten Schritt der Untersuchung Trainings- und Testdaten aus Suchmaschinenlogfiles und Folksonomien generiert und ein Rankingalgorithmus trainiert. Erste Analysen ergeben, dass die Rankings generiert aus impliziten Feedback von Suchmaschinen und Folksonomien, positiv korreliert sind. Die Untersuchungen basieren auf verschiedenen Datensammlungen aus den sozialen Lesezeichensystemen BibSonomy und Delicious, und aus Daten der Suchmaschinen MSN (jetzt Bing) und Google. Damit soziale Lesezeichensysteme als qualitativ hochwertige Informationssysteme erhalten bleiben, müssen Anbieter den in den Systemen anfallenden Spam bekämpfen. In dieser Arbeit werden verschiedene Merkmale vom legitimen und nicht legitimen Nutzern aus den Besonderheiten von Folksonomien abgeleitet und auf ihre Eignung zur Spamentdeckung getestet. Die besten Ergebnisse ergeben eine Kombination aus Profil- Aktivitäts-, semantischen und ortsbezogenen Merkmalen. Basierend auf den Experimenten wird eine Spamentdeckungsanwendung entwickelt mit Hilfe derer Spam in sozialen Lesezeichensystem BibSonomy erkannt und eliminiert wird. Mit der Speicherung und Veröffentlichung von benutzerbezogenen Daten ergibt sich die Frage, ob die persönlichen Daten eines Nutzers in sozialen Lesezeichensystemen noch genügend geschützt werden. Welche Art der persönlichen Daten werden in diesen Systemen gesammelt und wie gehen existierende Systeme mit diesen Daten um? Um diese Fragen zu beantworten, wird die Anwendung BibSonomy unter technischen und datenschutzrechtlichen Gesichtspunkten analysiert. Es werden Richtlinien erarbeitet, die als Leitfaden für den Umgang mit persönlichen Daten bei der Entwicklung und dem Betrieb von sozialen Lesezeichen dienen sollen. Experimente zur Spamklassifikation zeigen, dass die Berücksichtigung von datenschutzrechtlichen Aspekten bei der Auswahl von Klassifikationsmerkmalen persönliche Daten schützen können, ohne die Performanz des Systems bedeutend zu verringern. KW - Information Retrieval KW - Data Mining KW - Web2.0 KW - Tagging KW - Spam Detection KW - Soziales Netzwerk Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-120941 ER - TY - THES A1 - Winkler, Marco T1 - On the Role of Triadic Substructures in Complex Networks T1 - Über die Bedeutung von Dreiecksstrukturen in komplexen Netzwerken N2 - In the course of the growth of the Internet and due to increasing availability of data, over the last two decades, the field of network science has established itself as an own area of research. With quantitative scientists from computer science, mathematics, and physics working on datasets from biology, economics, sociology, political sciences, and many others, network science serves as a paradigm for interdisciplinary research. One of the major goals in network science is to unravel the relationship between topological graph structure and a network’s function. As evidence suggests, systems from the same fields, i.e. with similar function, tend to exhibit similar structure. However, it is still vague whether a similar graph structure automatically implies likewise function. This dissertation aims at helping to bridge this gap, while particularly focusing on the role of triadic structures. After a general introduction to the main concepts of network science, existing work devoted to the relevance of triadic substructures is reviewed. A major challenge in modeling triadic structure is the fact that not all three-node subgraphs can be specified independently of each other, as pairs of nodes may participate in multiple of those triadic subgraphs. In order to overcome this obstacle, we suggest a novel class of generative network models based on so called Steiner triple systems. The latter are partitions of a graph’s vertices into pair-disjoint triples (Steiner triples). Thus, the configurations on Steiner triples can be specified independently of each other without overdetermining the network’s link structure. Subsequently, we investigate the most basic realization of this new class of models. We call it the triadic random graph model (TRGM). The TRGM is parametrized by a probability distribution over all possible triadic subgraph patterns. In order to generate a network instantiation of the model, for all Steiner triples in the system, a pattern is drawn from the distribution and adjusted randomly on the Steiner triple. We calculate the degree distribution of the TRGM analytically and find it to be similar to a Poissonian distribution. Furthermore, it is shown that TRGMs possess non-trivial triadic structure. We discover inevitable correlations in the abundance of certain triadic subgraph patterns which should be taken into account when attributing functional relevance to particular motifs – patterns which occur significantly more frequently than expected at random. Beyond, the strong impact of the probability distributions on the Steiner triples on the occurrence of triadic subgraphs over the whole network is demonstrated. This interdependence allows us to design ensembles of networks with predefined triadic substructure. Hence, TRGMs help to overcome the lack of generative models needed for assessing the relevance of triadic structure. We further investigate whether motifs occur homogeneously or heterogeneously distributed over a graph. Therefore, we study triadic subgraph structures in each node’s neighborhood individually. In order to quantitatively measure structure from an individual node’s perspective, we introduce an algorithm for node-specific pattern mining for both directed unsigned, and undirected signed networks. Analyzing real-world datasets, we find that there are networks in which motifs are distributed highly heterogeneously, bound to the proximity of only very few nodes. Moreover, we observe indication for the potential sensitivity of biological systems to a targeted removal of these critical vertices. In addition, we study whole graphs with respect to the homogeneity and homophily of their node-specific triadic structure. The former describes the similarity of subgraph distributions in the neighborhoods of individual vertices. The latter quantifies whether connected vertices are structurally more similar than non-connected ones. We discover these features to be characteristic for the networks’ origins. Moreover, clustering the vertices of graphs regarding their triadic structure, we investigate structural groups in the neural network of C. elegans, the international airport-connection network, and the global network of diplomatic sentiments between countries. For the latter we find evidence for the instability of triangles considered socially unbalanced according to sociological theories. Finally, we utilize our TRGM to explore ensembles of networks with similar triadic substructure in terms of the evolution of dynamical processes acting on their nodes. Focusing on oscillators, coupled along the graphs’ edges, we observe that certain triad motifs impose a clear signature on the systems’ dynamics, even when embedded in a larger network structure. N2 - Im Zuge des Wachstums des Internets und der Verfügbarkeit nie da gewesener Datenmengen, hat sich, während der letzten beiden Jahrzehnte, die Netzwerkwissenschaft zu einer eigenständigen Forschungsrichtung entwickelt. Mit Wissenschaftlern aus quantitativen Feldern wie der Informatik, Mathematik und Physik, die Datensätze aus Biologie, den Wirtschaftswissenschaften, Soziologie, Politikwissenschaft und vielen weiteren Anwendungsgebieten untersuchen, stellt die Netzwerkwissenschaft ein Paradebeispiel interdisziplinärer Forschung dar. Eines der grundlegenden Ziele der Netzwerkwissenschaft ist es, den Zusammenhang zwischen der topologischen Struktur und der Funktion von Netzwerken herauszufinden. Es gibt zahlreiche Hinweise, dass Netz-werke aus den gleichen Bereichen, d.h. Systeme mit ähnlicher Funktion, auch ähnliche Graphstrukturen aufweisen. Es ist allerdings nach wie vor unklar, ob eine ähnliche Graphstruktur generell zu gleicher Funktionsweise führt. Es ist das Ziel der vorliegenden Dissertation, zur Klärung dieser Frage beizutragen. Das Hauptaugenmerk wird hierbei auf der Rolle von Dreiecksstrukturen liegen. Nach einer allgemeinen Einführung der wichtigsten Grundlagen der Theorie komplexer Netzwerke, wird eine Übersicht über existierende Arbeiten zur Bedeutung von Dreiecksstrukturen gegeben. Eine der größten Herausforderungen bei der Modellierung triadischer Strukturen ist die Tatsache, dass nicht alle Dreiecksbeziehungen in einem Graphen unabhängig voneinander bestimmt werden können, da zwei Knoten an mehreren solcher Dreiecksbeziehungen beteiligt sein können. Um dieses Problem zu lösen, führen wir, basierend auf sogenannten Steiner-Tripel-Systemen, eine neue Klasse generativer Netzwerkmodelle ein. Steiner-Tripel-Systeme sind Zerlegungen der Knoten eines Graphen in paarfremde Tripel (Steiner-Tripel). Daher können die Konfigurationen auf Steiner-Tripeln unabhängig voneinander gewählt werden, ohne dass dies zu einer Überbestimmung der Netzwerkstruktur führen würde. Anschließend untersuchen wir die grundlegendste Realisierung dieser neuen Klasse von Netzwerkmodellen, die wir das triadische Zufallsgraph-Modell (engl. triadic random graph model, TRGM) nennen. TRGMs werden durch eine Wahrscheinlichkeitsverteilung über alle möglichen Dreiecksstrukturen parametrisiert. Um ein konkretes Netzwerk zu erzeugen wird für jedes Steiner-Tripel eine Dreiecksstruktur gemäß der Wahrscheinlichkeitsverteilung gezogen und zufällig auf dem Tripel orientiert. Wir berechnen die Knotengradverteilung des TRGM analytisch und finden heraus, dass diese einer Poissonverteilung ähnelt. Des Weiteren wird gezeigt, dass TRGMs nichttriviale Dreiecksstrukturen aufweisen. Außerdem finden wir unvermeidliche Korrelationen im Auftreten bestimmter Subgraphen, derer man sich bewusst sein sollte. Insbesondere wenn es darum geht, die Bedeutung sogenannter Motive (Strukturen, die signifikant häufiger als zufällig erwartet auftreten) zu beurteilen. Darüber hinaus wird der starke Einfluss der Wahrscheinlichkeitsverteilung auf den Steiner-Tripeln, auf die generelle Dreiecksstruktur der erzeugten Netzwerke gezeigt. Diese Abhängigkeit ermöglicht es, Netzwerkensembles mit vorgegebener Dreiecksstruktur zu konzipieren. Daher helfen TRGMs dabei, den bestehenden Mangel an generativen Netzwerkmodellen, zur Beurteilung der Bedeutung triadischer Strukturen in Graphen, zu beheben. Es wird ferner untersucht, wie homogen Motive räumlich über Graphstrukturen verteilt sind. Zu diesem Zweck untersuchen wir das Auftreten von Dreiecksstrukturen in der Umgebung jedes Knotens separat. Um die Struktur individueller Knoten quantitativ erfassen zu können, führen wir einen Algorithmus zur knotenspezifischen Musterauswertung (node-specific pattern mining) ein, der sowohl auf gerichtete, als auch auf Graphen mit positiven und negativen Kanten angewendet werden kann. Bei der Analyse realer Datensätze beobachten wir, dass Motive in einigen Netzen hochgradig heterogen verteilt, und auf die Umgebung einiger, weniger Knoten beschränkt sind. Darüber hinaus finden wir Hinweise auf die mögliche Fehleranfälligkeit biologischer Systeme auf ein gezieltes Entfernen ebendieser Knoten. Des Weiteren studieren wir ganze Graphen bezüglich der Homogenität und Homophilie ihrer knotenspezifischen Dreiecksmuster. Erstere beschreibt die Ähnlichkeit der lokalen Dreiecksstrukturen zwischen verschiedenen Knoten. Letztere gibt an, ob sich verbundene Knoten bezüglich ihrer Dreiecksstruktur ähnlicher sind, als nicht verbundene Knoten. Wir stellen fest, dass diese Eigenschaften charakteristisch für die Herkunft der jeweiligen Netzwerke sind. Darüber hinaus gruppieren wir die Knoten verschiedener Systeme bezüglich der Ähnlichkeit ihrer lokalen Dreiecksstrukturen. Hierzu untersuchen wir das neuronale Netz von C. elegans, das internationale Flugverbindungsnetzwerk, sowie das Netzwerk internationaler Beziehungen zwischen Staaten. In Letzterem finden wir Hinweise darauf, dass Dreieckskonfigurationen, die nach soziologischen Theorien als unbalanciert gelten, besonders instabil sind. Schließlich verwenden wir unser TRGM, um Netzwerkensembles mit ähnlicher Dreiecksstruktur bezüglich der Eigenschaften dynamischer Prozesse, die auf ihren Knoten ablaufen, zu untersuchen. Wir konzentrieren uns auf Oszillatoren, die entlang der Kanten der Graphen miteinander gekoppelt sind. Hierbei beobachten wir, dass bestimmte Dreiecksmotive charakteristische Merkmale im dynamischen Verhalten der Systeme hinterlassen. Dies ist auch der Fall, wenn die Motive in eine größere Netzwerkstruktur eingebettet sind. KW - Netzwerk KW - Komplexes System KW - Substruktur KW - Dreieck KW - Networks KW - Complex Systems KW - Statistics KW - Machine Learning KW - Biological Networks KW - Statistische Physik KW - Statistische Mechanik KW - Data Mining KW - Maschinelles Lernen KW - Graphentheorie Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-116022 SN - 978-3-7375-5654-5 PB - epubli GmbH CY - Berlin ER - TY - THES A1 - Ring, Markus T1 - Detektion sicherheitskritischer Ereignisse in Unternehmensnetzwerken mittels Data Mining T1 - Detection of security-critical events in company networks using data mining N2 - E-Mails, Online Banking und Videokonferenzen sind aus unserem heutigen Alltag nicht mehr wegzudenken. Bei all diesen Aktivitäten werden zahlreiche personenbezogene Informationen und vertrauenswürdige Daten digital übertragen und gespeichert. Zur Sicherstellung der digitalen Daten vor unbefugten Zugriffen und Manipulationen existieren verschiedenste Konzepte, Methoden und Verfahren, die sich unter dem Begriff IT-Sicherheit zusammenfassen lassen. Klassische Sicherheitslösungen aus dem Bereich IT-Sicherheit sind Firewalls und Virenscanner. Derartige Ansätze sind meist regelbasiert und prüfen Dateien beziehungsweise eingehenden Netzwerkverkehr anhand einer Liste bekannter Angriffssignaturen. Folglich können diese Systeme nur bereits bekannte Angriffsszenarien detektieren und bieten keinen Schutz vor neuartigen Angriffen. Somit entsteht im Bereich IT-Sicherheit ein Wettlauf zwischen Hackern und IT-Sicherheitsexperten, bei dem die Hacker stets nach neuen Mitteln und Wegen suchen, die existierenden Sicherheitslösungen zu überwinden, während IT-Sicherheitsexperten stetig ihre Schutzmechanismen verbessern. Die vorliegende Arbeit widmet sich der Detektion von Angriffsszenarien in Unternehmensnetzwerken mithilfe von Data Mining-Methoden. Diese Methoden sind in der Lage anhand von repräsentativen Daten die darin enthaltenen Strukturen zu erlernen und zu generalisieren. Folglich können sich Data Mining-Methoden grundsätzlich zur Detektion neuer Angriffsszenarien eignen, wenn diese Angriffsszenarien Überschneidungen mit bekannten Angriffsszenarien aufweisen oder sich wesentlich vom bekannten Normalverhalten unterscheiden. In dieser Arbeit werden netzwerkbasierte Daten im NetFlow Format analysiert, da diese einen aggregierten Überblick über das Geschehen im Netzwerk bieten. Häufig können Netzwerkdaten aufgrund datenschutzrechtlicher Bedenken nicht veröffentlicht werden, was für die Erzeugung synthetischer, aber realistischer Netzwerkdaten spricht. Des Weiteren führt die Beschaffenheit der Netzwerkdaten dazu, dass eine Kombination von kontinuierlichen und kategorischen Attributen analysiert werden muss, was vor allem das Vergleichen der Daten bezüglich ihrer Ähnlichkeit erschwert. Diese Arbeit liefert methodische Beiträge zu jeder der drei genannten Herausforderungen. Im Bereich der Abstandsberechnung kategorischer Werte werden mit ConDist und IP2Vec zwei unterschiedliche Ansätze entwickelt. ConDist ist ein universell einsetzbares Abstandsmaß zur Berechnung von Abständen zwischen Datenpunkten, die aus kontinuierlichen und kategorischen Attributen bestehen. IP2Vec ist auf Netzwerkdaten spezialisiert und transformiert kategorische Werte in kontinuierliche Vektoren. Im Bereich der Generierung realistischer Netzwerkdaten werden neben einer ausführlichen Literaturrecherche zwei unterschiedliche Ansätze vorgestellt. Zunächst wird ein auf Simulation basierter Ansatz zur Generierung flowbasierter Datensätze entwickelt. Dieser Ansatz basiert auf einer Testumgebung und simuliert typische Benutzeraktivitäten durch automatisierte Python Skripte. Parallel hierzu wird ein zweiter Ansatz zur synthetischen Generierung flowbasierter Netzwerkdaten durch Modellierung mithilfe von Generative Adversarial Networks entwickelt. Dieser Ansatz erlernt die zugrundeliegenden Eigenschaften der Netzwerkdaten und ist anschließend in der Lage, neue Netzwerkdaten mit gleichen Eigenschaften zu generieren.Während sich der erste Ansatz zur Erstellung neuer Datensätze eignet, kann der zweite Ansatz zur Anreicherung existierender Datensätze genutzt werden. Schließlich liefert diese Arbeit noch zwei Beiträge zur Detektion von Angriffsszenarien. Im ersten Beitrag wird ein Konzept zur Detektion von Angriffsszenarien entwickelt, welches sich an die typischen Phasen eines Angriffsszenarios orientiert. Im zweiten Beitrag werden eine überwachte und eine unüberwachte Methode zur Detektion von langsamen Port Scans vorgestellt. N2 - E-mails, online banking and video conferences have become an integral part of our daily lives. All these processes transmit confidential data and personal information over insecure lines. There are many concepts, methods and procedures to protect digital data against unauthorised access and manipulation which can be summarised under the term IT security. Typical security mechanisms are firewalls and virus scanners. Such approaches are usually rule-based and check files or incoming network traffic against a list of known attack signatures. Consequently, these approaches can only detect known signatures and do not offer protection against zero-day exploits. Generally, there is a race between IT security experts and hackers in which hackers try to find new ways and methods to trick existing security solutions while IT security experts try to improve their security mechanisms. This work aims at the detection of attack scenarios in company networks using data mining methods. Data mining methods are able to learn and generalise from representative training data. Consequently, these methods can be used to detect new attack scenarios if the new attack scenarios overlap with known attack scenarios or differ significantly from normal behaviour. This work focuses on the analysis of network-based data in NetFlow format, since this provides an aggregate view of what is going on in the network. Mostly, network-based data can not be shared due to privacy concerns which calls for the generation of synthetic, but realistic network data. Further, network-based data consists of continuous and categorical attributes which complicates their analysis, in particular comparing these data with respect to their (dis)similarity. This work provides methodological contributions to each of the three mentioned challenges above. The developed methods ConDist and IP2Vec are two different approaches for distance calculation between categorical values. ConDist is a generally usable distance measure for calculating distances between objects with continuous and categorical attributes. IP2Vec is specialised on network-based data and transforms categorical values into semantic-preserving continuous vectors. Further, this work provides an exhaustive overview about network-based data sets and pro-poses two new approaches for generating realistic network-based data. The first approach rebuilds company networks in a test environment and simulates typical user activities by automated Python scripts. The second approach is based on Generative Adversarial Networks and generates synthetic data. Generative Adversarial Networks learn the characteristics of network-based data and generate new data with the same underlying characteristics. While the first approach is able to create new data sets, the second approach can be used to enrich existing data sets with additional data. Finally, this work provides two contributions to the detection of attack scenarios. The first contribution provides a general concept for attack detection, which is oriented towards the typical phases of attack scenarios. The second contribution proposes an unsupervised and a supervised method for detecting slow port scans with high accuracy. KW - Data Mining KW - Corporate Network KW - Angriff KW - IT-Sicherheit KW - Netzwerkdaten KW - Intrusion Detection KW - Datensicherung KW - Neuronale Netze KW - Eindringerkennung Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-219561 ER -