TY  - THES
A1  - Navarro Bullock, Beate
T1  - Privacy aware social information retrieval and spam filtering using folksonomies
T1  - Suche und Spam Entdeckung anhand von Folksonomien unter Beachtung datenschutzrelevanter Aspekte
N2  - Social interactions as introduced by Web 2.0 applications during the last decade have changed the way the Internet is used. Today, it is part of our daily lives to maintain contacts through social networks, to comment on the latest developments in microblogging services or to save and share information snippets such as photos or bookmarks online.

Social bookmarking systems are part of this development. Users can share links to interesting web pages by publishing bookmarks and providing descriptive keywords for them. The structure which evolves from the collection of annotated bookmarks is called a folksonomy. The sharing of interesting and relevant posts enables new ways of retrieving information from the Web. Users
can search or browse the folksonomy looking at resources related to specific tags or users. Ranking methods known from search engines have been adjusted to facilitate retrieval in social bookmarking systems. Hence, social bookmarking systems have become an alternative or addendum to search engines.

In order to better understand the commonalities and differences of social bookmarking systems and search engines, this thesis compares several aspects of the two systems' structure, usage behaviour and content. This includes the use of tags and query terms, the composition of the document collections and the rankings of bookmarks and search engine URLs. Searchers (recorded via session ids), their search terms and the clicked on URLs can be extracted from a search
engine query logfile. They form similar links as can be found in folksonomies where a user annotates a resource with tags. We use this analogy to build a tripartite hypergraph from query logfiles (a logsonomy), and compare structural and semantic properties of log- and folksonomies. Overall, we have found similar behavioural, structural and semantic characteristics in both systems. Driven by this insight, we investigate, if folksonomy data can be of use in web
information retrieval in a similar way to query log data: we construct training data from query logs and a folksonomy to build models for a learning-to-rank algorithm. First experiments show a positive correlation of ranking results generated from the ranking models of both systems. The research is based on various data collections from the social bookmarking systems BibSonomy and Delicious, Microsoft's search engine MSN (now Bing) and Google data.

To maintain social bookmarking systems as a good source for information retrieval, providers need to fight spam. This thesis introduces and analyses different features derived from the specific characteristics of social bookmarking systems to be used in spam detection classification algorithms. Best results can be derived from a combination of profile, activity, semantic and location-based features. Based on the experiments, a spam detection framework which identifies and eliminates spam activities for the social bookmarking system BibSonomy has been developed.

The storing and publication of user-related bookmarks and profile information raises questions about user data privacy. What kinds of personal information is collected and how do systems handle user-related items? In order to answer these questions, the thesis looks into the handling of data privacy in the social bookmarking system BibSonomy. Legal guidelines about how to deal with the private data collected and processed in social bookmarking systems are also presented. Experiments will show that the consideration of user data privacy in the process
of feature design can be a first step towards strengthening data privacy.
N2  - Soziale Interaktion, wie sie im letzten Jahrzehnt durch Web 2.0 Anwendungen eingeführt wurde, änderte die Art und Weise wie wir das Internet nutzen. Heute gehört es zum Alltag, Kontakte in sozialen Netzwerken zu pflegen, die aktuellsten Entwicklungen in Mikroblogging - Anwendungen zu kommentieren, oder interessante Informationen wie Fotos oder Weblinks digital zu speichern und zu
teilen.

Soziale Lesezeichensysteme sind ein Teil dieser Entwicklung. Nutzer können Links zu interessanten Webseiten teilen, indem sie diese mit aussagekräftigen Begriffen (Tags) versehen und veröffentlichen. Die Struktur, die aus der Sammlung von annotierten Lesezeichen entsteht, wird Folksonomy genannt. Nutzer können diese durchforsten und nach Links mit bestimmten Tags oder von bestimmten Nutzern suchen. Ranking Methoden, die schon in Suchmaschinen implementiert
wurden, wurden angepasst, um die Suche in sozialen Lesezeichensystemen zu erleichtern. So haben sich diese Systeme mittlerweile zu einer ernsthaften Alternative oder Ergänzung zu traditionellen Suchmaschinen entwickelt.

Um Gemeinsamkeiten und Unterschiede in der Struktur, Nutzung und in den Inhalten von sozialen Lesezeichensystemen und Suchmaschinen besser zu verstehen, werden in dieser Arbeit die Verwendung von Tags und Suchbegriffen, die Zusammensetzung der Dokumentensammlungen und der Aufbau der Rankings verglichen und diskutiert. Aus den Suchmaschinennutzern eines Logfiles,
ihren Anfragen und den geklickten Rankingergebnissen lässt sich eine ähnlich tripartite Struktur wie die der Folksonomy aufbauen. Die Häufigkeitsverteilungen sowie strukturellen Eigenschaften dieses Graphen werden mit der Struktur einer Folksonomy verglichen. Insgesamt lassen sich ein ähnliches Nutzerverhalten und ähnliche Strukturen aus beiden Ansätzen ableiten. Diese Erkenntnis nutzend werden im letzten Schritt der Untersuchung Trainings- und Testdaten aus
Suchmaschinenlogfiles und Folksonomien generiert und ein Rankingalgorithmus trainiert. Erste Analysen ergeben, dass die Rankings generiert aus impliziten Feedback von Suchmaschinen und Folksonomien, positiv korreliert sind. Die Untersuchungen basieren auf verschiedenen Datensammlungen aus den sozialen Lesezeichensystemen BibSonomy und Delicious, und aus Daten der Suchmaschinen MSN (jetzt Bing) und Google.

Damit soziale Lesezeichensysteme als qualitativ hochwertige Informationssysteme erhalten bleiben, müssen Anbieter den in den Systemen anfallenden Spam bekämpfen. In dieser Arbeit werden verschiedene Merkmale vom legitimen und nicht legitimen Nutzern aus den Besonderheiten von Folksonomien abgeleitet und auf ihre Eignung zur Spamentdeckung getestet. Die besten Ergebnisse ergeben eine Kombination aus Profil- Aktivitäts-, semantischen und ortsbezogenen Merkmalen. 
Basierend auf den Experimenten wird eine Spamentdeckungsanwendung entwickelt mit Hilfe derer Spam in sozialen Lesezeichensystem BibSonomy erkannt und eliminiert wird.

Mit der Speicherung und Veröffentlichung von benutzerbezogenen Daten ergibt sich die Frage, ob die persönlichen Daten eines Nutzers in sozialen Lesezeichensystemen noch genügend geschützt werden. Welche Art der persönlichen Daten werden in diesen Systemen gesammelt und wie gehen existierende Systeme mit diesen Daten um? Um diese Fragen zu beantworten, wird die Anwendung BibSonomy unter technischen und datenschutzrechtlichen Gesichtspunkten analysiert. Es
werden Richtlinien erarbeitet, die als Leitfaden für den Umgang mit persönlichen Daten bei der Entwicklung und dem Betrieb von sozialen Lesezeichen dienen sollen. Experimente zur Spamklassifikation zeigen, dass die Berücksichtigung von datenschutzrechtlichen Aspekten bei der Auswahl von Klassifikationsmerkmalen persönliche Daten schützen können, ohne die Performanz
des Systems bedeutend zu verringern.
KW  - Information Retrieval
KW  - Data Mining
KW  - Web2.0
KW  - Tagging
KW  - Spam Detection
KW  - Soziales Netzwerk
Y1  - 2015
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-120941
ER  - 
TY  - THES
A1  - Schlör, Daniel
T1  - Detecting Anomalies in Transaction Data
T1  - Anomalieentdeckung in Transaktionsdaten
N2  - Detecting anomalies in transaction data is an important task with a high potential to avoid financial loss due to irregularities deliberately or inadvertently carried out, such as credit card fraud, occupational fraud in companies or ordering and accounting errors. With ongoing digitization of our world, data-driven approaches, including machine learning, can draw benefit from data with less manual effort and feature engineering. A large variety of machine learning-based anomaly detection methods approach this by learning a precise model of normality from which anomalies can be distinguished. Modeling normality in transactional data, however, requires to capture distributions and dependencies within the data precisely with special attention to numerical dependencies such as quantities, prices or amounts.

To implicitly model numerical dependencies, Neural Arithmetic Logic Units have been proposed as neural architecture. In practice, however, these have stability and precision issues. 
Therefore, we first develop an improved neural network architecture, iNALU, which is designed to better model numerical dependencies as found in transaction data. We compare this architecture to the previous approach and show in several experiments of varying complexity that our novel architecture provides better precision and stability.
 We integrate this architecture into two generative neural network models adapted for transaction data and investigate how well normal behavior is modeled. We show that both architectures can successfully model normal transaction data, with our neural architecture  improving generative performance for one model.

 Since categorical and numerical variables are common in transaction data, but many machine learning methods only process numerical representations, we explore different representation learning techniques to transform categorical transaction data into dense numerical vectors. We extend this approach by proposing an outlier-aware discretization, thus incorporating numerical attributes into the computation of categorical embeddings, and investigate latent spaces, as well as quantitative performance for anomaly detection.

Next, we evaluate different scenarios for anomaly detection on transaction data. We extend our iNALU architecture to a neural layer that can model both numerical and non-numerical dependencies and evaluate it in a supervised and one-class setting. We investigate the stability and generalizability of our approach and show that it outperforms a variety of models in the balanced supervised setting and performs comparably in the one-class setting. Finally, we evaluate three approaches to using a generative model as an anomaly detector and compare the anomaly detection performance.
N2  - Die Erkennung von Anomalien in Transaktionsdaten ist eine wichtige Zielsetzung mit hohem Potenzial, finanzielle Verluste zu vermeiden, die auf absichtlich oder versehentlich begangenen Unregelmäßigkeiten wie beispielsweise Kreditkartenbetrug oder Bestell- und Abrechnungsfehlern gründen. Mit der fortschreitenden Digitalisierung können datengetriebene Ansätze einschließlich maschinellen Lernens mit immer weniger manuellem Aufwand Nutzen aus den Daten ziehen. 
Viele Methoden zur Erkennung von Anomalien, die auf maschinellem Lernen basieren, verfolgen diesen Ansatz, indem sie ein präzises Modell der normalen Daten erlernen, mit dem sich dann Anomalien davon unterscheiden lassen. Die Modellierung von normalen Transaktionsdaten erfordert jedoch eine genaue Erfassung von Verteilungen und Abhängigkeiten innerhalb der Daten mit besonderem Augenmerk auf numerischen Abhängigkeiten von beispielsweise Mengen oder Geldbeträgen.

Zur impliziten Modellierung numerischer Abhängigkeiten wurden Neural Arithmetic Logic Units als neuronale Architektur vorgeschlagen. In der Praxis haben diese jedoch Stabilitäts- und Präzisionsprobleme. 
Daher entwickeln wir zunächst eine verbesserte neuronale Netzwerkarchitektur, iNALU, die darauf ausgelegt ist, numerische Abhängigkeiten, wie sie in Transaktionsdaten vorkommen, besser zu modellieren. Wir vergleichen diese Architektur mit ihrer Vorläuferarchitektur und zeigen in mehreren Experimenten, dass unsere Architektur höhere Präzision und Stabilität bietet.
 Wir integrieren unsere Architektur in zwei generative neuronale Netzmodelle, die für Transaktionsdaten angepasst wurden, und untersuchen, wie gut Normalverhalten modelliert wird. Wir zeigen, dass beide Architekturen normale Daten erfolgreich modellieren können, wobei die in dieser Arbeit vorgestellte neuronale Architektur die generativen Ergebnisse für ein Modell  verbessert.

 Da kategorische und numerische Variablen in Transaktionsdaten häufig zusammen vorkommen, viele Methoden des maschinellen Lernens jedoch nur numerische Repräsentationen verarbeiten, untersuchen wir verschiedene Techniken des Repräsentationslernens, um kategorische Transaktionsdaten in dichte numerische Vektoren zu transformieren. Wir erweitern diese, indem wir einen Diskretisierungsansatz vorschlagen, der Ausreißer berücksichtigt. Damit werden Zusammenhänge numerischer Datentypen in die Berechnung kategorischer Einbettungen einbezogen, um die Anomalieerkennung insgesamt zu verbessern.
KW  - Anomalieerkennung
KW  - Fraud detection
Y1  - 2022
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-298569
ER  - 
TY  - THES
A1  - Becker, Martin
T1  - Understanding Human Navigation using Bayesian Hypothesis Comparison
T1  - Verstehen menschlichen Navigationsverhaltens
mit hypothesengetriebenen Bayes'schen Methoden
N2  - Understanding human navigation behavior has implications for a wide range of application scenarios. For example, insights into geo-spatial navigation in urban areas can impact city planning or public transport. Similarly, knowledge about navigation on the web can help to improve web site structures or service experience. 

In this work, we focus on a hypothesis-driven approach to address the task of understanding human navigation: We aim to formulate and compare ideas — for example stemming from existing theory, literature, intuition, or previous experiments — based on a given set of navigational observations. For example, we may compare whether tourists exploring a city walk “short distances” before taking their next photo vs. they tend to "travel long distances between points of interest", or whether users browsing Wikipedia "navigate semantically" vs. "click randomly".

For this, the Bayesian method HypTrails has recently been proposed. However, while HypTrails is a straightforward and flexible approach, several major challenges remain:
i) HypTrails does not account for heterogeneity (e.g., incorporating differently behaving user groups such as tourists and locals is not possible), ii) HypTrails does not support the user in conceiving novel hypotheses when confronted with a large set of possibly relevant background information or influence factors, e.g., points of interest, popularity of locations, time of the day, or user properties, and finally iii) formulating hypotheses can be technically challenging depending on the application scenario (e.g., due to continuous observations or temporal constraints). In this thesis, we address these limitations by introducing various novel methods and tools and explore a wide range of case studies. 

In particular, our main contributions are the methods MixedTrails and SubTrails which specifically address the first two limitations: MixedTrails is an approach for hypothesis comparison that extends the previously proposed HypTrails method to allow formulating and comparing heterogeneous hypotheses (e.g., incorporating differently behaving user groups). SubTrails is a method that supports hypothesis conception by automatically discovering interpretable subgroups with exceptional navigation behavior. In addition, our methodological contributions also include several tools consisting of a distributed implementation of HypTrails, a web application for visualizing geo-spatial human navigation in the context of background information, as well as a system for collecting, analyzing, and visualizing mobile participatory sensing data. 

Furthermore, we conduct case studies in many application domains, which encompass — among others — geo-spatial navigation based on photos from the photo-sharing platform Flickr, browsing behavior on the social tagging system BibSonomy, and task choosing behavior on a commercial crowdsourcing platform. In the process, we develop approaches to cope with application specific subtleties (like continuous observations and temporal constraints). The corresponding studies illustrate the variety of domains and facets in which navigation behavior can be studied and, thus, showcase the expressiveness, applicability, and flexibility of our methods. Using these methods, we present new aspects of navigational phenomena which ultimately help to better understand the multi-faceted characteristics of human navigation behavior.
N2  - Menschliches Navigationsverhalten zu verstehen, kann in einer Reihe von Anwendungsgebieten große Fortschritte bringen. Zum Beispiel können Einblicke in räumliche Navigation, wie etwa in Innenstädten, dabei helfen Infrastrukturen und öffentliche Verkehrsmittel besser abzustimmen. Genauso kann Wissen über das Navigationsverhalten von Benutzern im Internet, Entwickler dabei unterstützen Webseiten besser zu strukturieren oder generell die Benutzererfahrung zu verbessern. 

In dieser Arbeit konzentrieren wir uns auf einen Hypothesen-getriebenen Ansatz, um menschliches Navigationsverhalten zu verstehen. Das heißt, wir formulieren und
vergleichen Hypothesen basierend auf beobachteten Navigationspfaden. Diese Hypothesen basieren zumeist auf existierenden Theorien, Literatur, vorherigen Experimenten oder Intuition. Beispielsweise kann es interessant sein zu vergleichen, ob Touristen, die eine Stadt erkunden, eher zu nahegelegenen Sehenswürdigkeiten laufen, als vornehmlich große Strecken zurückzulegen. Weiterhin kann man in Online-Szenarien vergleichen, ob Benutzer zum Beispiel auf Wikipedia eher semantisch navigieren, als zufällig Artikel anzusurfen.

Für diese Szenarien wurde HypTrails entwickelt, ein Bayes’scher Ansatz zum Vergleich von Navigationshypothesen. Doch obwohl HypTrails eine einfach zu benutzende und sehr flexible Methode darstellt, hat es einige deutliche Schwachstellen: Zum einen kann HypTrails keine heterogenen Prozesse modellieren (z.B., um das Verhalten von ver-
schiedenen Nutzergruppen, wie etwa von Touristen und Einheimischen, zu unterscheiden). Außerdem bietet HypTrails dem Benutzer keine Unterstützung bei der Entwicklung neuer Hypothesen. Dies stellt vor allem in Kombination mit großen Mengen an Hintergrundinformationen und anderen Einflussgrößen (z.B., Sehenswürdigkeiten, Beliebtheit von Orten, Tageszeiten, oder verschieden Benutzereigenschaften) eine große Herausforderung dar. Außerdem kann sich das Formulieren von adäquaten Hypothesen abhängig vom Anwendungsszenario als schwierig erweisen (z.B. aufgrund von kontinuierlichen, räumlichen Koordinaten oder zeitlichen Nebenbedingungen). In dieser Arbeit setzen wir an eben jenen Problemstellungen an.

Unsere Hauptbeiträge bestehen dabei aus den Ansätzen MixedTrails und SubTrails, die vor allem die ersten beiden genannten Schwachstellen adressieren: MixedTrails stellt einen Ansatz zum Vergleich von Hypothesen dar, der auf HypTrails basiert, es aber ermöglicht heterogene Hypothesen zu formulieren und zu vergleichen (z.B., bei Benutzergruppen mit unterschiedlichem Bewegungsverhalten). Während SubTrails eine Methode darstellt, die das Entwickeln neuer Hypothesen unterstützt, indem es die automatische Entdeckung von interpretierbaren Subgruppen mit außergewöhnlichen Bewegungscharakteristiken ermöglicht. Weiterhin, stellen wir eine verteitle und hochparallele Implementierung von HypTrails, ein Werkzeug zur Visualisierung von räumlicher Navigation zusammen mit Hintergrundinformationen, sowie ein System zur Sammlung, Analyse und Visualisierung von Daten aus dem Bereich des Participatory Sensing vor.

Schließlich, führen wir mehrere Studien in verschiedenen Anwendungsbereichen durch. Wir untersuchen etwa räumliche Navigation basierend auf Photos der Onlineplattform
Flickr, Browsing-Verhalten der Nutzer auf dem Verschlagwortungssystem BibSonomy, und das Arbeitsverhalten von Nutzern einer kommerziellen Crowdsourcing-Plattform. Dabei entwickeln wir mehrere Ansätze, um mit den Eigenheiten der spezifischen Szenarien umgehen zu können (wie etwa kontinuierliche räumliche Koordinaten oder zeitliche Nebenbedingungen). Die Ergebnisse zeigen die Vielzahl von Anwendungsgebieten und Facetten, in denen Navigationsverhalten analysiert werden kann, und illustrieren so die Ausdrucksstärke, vielseitige Anwendbarkeit und Flexibilität unserer Methoden. Gleichzeitig, geben wir neue Einblicke in verschiedene Navigationsprozesse und ermöglichen so einen wichtigen Schritt hin zum Verständnis der vielfältigen Ebenen menschlichen Navigationsverhaltens.
KW  - Bayesian model comparison
KW  - Bayes-Verfahren
KW  - Mensch
KW  - Raumverhalten
KW  - Hypothesis comparison
KW  - Model comparison
KW  - Web navigation
KW  - Geo-spatial behavior
KW  - Navigation analysis
KW  - Räumliches Verhalten
KW  - Data Science
KW  - Human behavior
KW  - Bayes analysis
KW  - Mobility
KW  - Mobilität
KW  - Statistische Hypothese
KW  - Spatial behavior
KW  - Social Media
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-163522
ER  - 
TY  - THES
A1  - Ring, Markus
T1  - Detektion sicherheitskritischer Ereignisse in Unternehmensnetzwerken mittels Data Mining
T1  - Detection of security-critical events in company networks using data mining
N2  - E-Mails, Online Banking und Videokonferenzen sind aus unserem heutigen Alltag nicht mehr wegzudenken. Bei all diesen Aktivitäten werden zahlreiche personenbezogene Informationen und vertrauenswürdige Daten digital übertragen und gespeichert. Zur Sicherstellung der digitalen Daten vor unbefugten Zugriffen und Manipulationen existieren verschiedenste Konzepte, Methoden und Verfahren, die sich unter dem Begriff IT-Sicherheit zusammenfassen lassen. Klassische Sicherheitslösungen aus dem Bereich IT-Sicherheit sind Firewalls und Virenscanner. Derartige Ansätze sind meist regelbasiert und prüfen Dateien beziehungsweise eingehenden Netzwerkverkehr anhand einer Liste bekannter Angriffssignaturen. Folglich können diese Systeme nur bereits bekannte Angriffsszenarien detektieren und bieten keinen Schutz vor neuartigen Angriffen. Somit entsteht im Bereich IT-Sicherheit ein Wettlauf zwischen Hackern und IT-Sicherheitsexperten, bei dem die Hacker stets nach neuen Mitteln und Wegen suchen, die existierenden Sicherheitslösungen zu überwinden, während IT-Sicherheitsexperten stetig ihre Schutzmechanismen verbessern. 

Die vorliegende Arbeit widmet sich der Detektion von Angriffsszenarien in Unternehmensnetzwerken mithilfe von Data Mining-Methoden. Diese Methoden sind in der Lage anhand von repräsentativen Daten die darin enthaltenen Strukturen zu erlernen und zu generalisieren. Folglich können sich Data Mining-Methoden grundsätzlich zur Detektion neuer Angriffsszenarien eignen, wenn diese Angriffsszenarien Überschneidungen mit bekannten Angriffsszenarien aufweisen oder sich wesentlich vom bekannten Normalverhalten unterscheiden.   In dieser Arbeit werden netzwerkbasierte Daten im NetFlow Format analysiert, da diese einen aggregierten Überblick über das Geschehen im Netzwerk bieten.  Häufig können Netzwerkdaten aufgrund datenschutzrechtlicher Bedenken nicht veröffentlicht werden, was für die Erzeugung synthetischer, aber realistischer Netzwerkdaten spricht.  Des Weiteren führt die Beschaffenheit der Netzwerkdaten dazu, dass eine Kombination von kontinuierlichen und kategorischen Attributen analysiert werden muss, was vor allem das Vergleichen der Daten bezüglich ihrer Ähnlichkeit erschwert. 

Diese Arbeit liefert methodische Beiträge zu jeder der drei genannten Herausforderungen. Im Bereich der Abstandsberechnung kategorischer Werte werden mit ConDist und IP2Vec zwei unterschiedliche Ansätze entwickelt. ConDist ist ein universell einsetzbares Abstandsmaß zur Berechnung von Abständen zwischen Datenpunkten, die aus kontinuierlichen und kategorischen Attributen bestehen. IP2Vec ist auf Netzwerkdaten spezialisiert und transformiert kategorische Werte in kontinuierliche Vektoren.

Im Bereich der Generierung realistischer Netzwerkdaten werden neben einer ausführlichen Literaturrecherche zwei unterschiedliche Ansätze vorgestellt. Zunächst wird ein auf Simulation basierter Ansatz zur Generierung flowbasierter Datensätze entwickelt. Dieser Ansatz basiert auf einer Testumgebung und simuliert typische Benutzeraktivitäten durch automatisierte Python Skripte. Parallel hierzu wird ein zweiter Ansatz zur synthetischen Generierung flowbasierter Netzwerkdaten durch Modellierung mithilfe von Generative Adversarial Networks entwickelt. Dieser Ansatz erlernt die zugrundeliegenden Eigenschaften der Netzwerkdaten und ist anschließend in der Lage, neue Netzwerkdaten mit gleichen Eigenschaften zu generieren.Während sich der erste Ansatz zur Erstellung neuer Datensätze eignet, kann der zweite Ansatz zur Anreicherung existierender Datensätze genutzt werden.   

Schließlich liefert diese Arbeit noch zwei Beiträge zur Detektion von Angriffsszenarien. Im ersten Beitrag wird ein Konzept zur Detektion von Angriffsszenarien entwickelt, welches sich an die typischen Phasen eines Angriffsszenarios orientiert. Im zweiten Beitrag werden eine überwachte und eine unüberwachte Methode zur Detektion von langsamen Port Scans vorgestellt.
N2  - E-mails, online banking and video conferences have become an integral part of our daily lives. All these processes transmit confidential data and personal information over insecure lines. There are many concepts, methods and procedures to protect digital data against unauthorised access and manipulation which can be summarised under the term IT security. Typical security mechanisms are firewalls and virus scanners. Such approaches are usually rule-based and check files or incoming network traffic against a list of known attack signatures. Consequently, these approaches can only detect known signatures and do not offer protection against zero-day exploits. Generally, there is a race between IT security experts and hackers in which hackers try to find new ways and methods to trick existing security solutions while IT security experts try to improve their security mechanisms. 

This work aims at the detection of attack scenarios in company networks using data mining methods. Data mining methods are able to learn and generalise from representative training data. Consequently, these methods can be used to detect new attack scenarios if the new attack scenarios overlap with known attack scenarios or differ significantly from normal behaviour. This work focuses on the analysis of network-based data in NetFlow format, since this provides an aggregate view of what is going on in the network. Mostly, network-based data can not be shared due to privacy concerns which calls for the generation of synthetic, but realistic network data. Further, network-based data consists of continuous and categorical attributes which complicates their analysis, in particular comparing these data with respect to their (dis)similarity.

This work provides methodological contributions to each of the three mentioned challenges above. The developed methods ConDist and IP2Vec are two different approaches for distance calculation between categorical values. ConDist is a generally usable distance measure for calculating distances between objects with continuous and categorical attributes. IP2Vec is specialised on network-based data and transforms categorical values into semantic-preserving continuous vectors.

Further, this work provides an exhaustive overview about network-based data sets and pro-poses two new approaches for generating realistic network-based data. The first approach rebuilds company networks in a test environment and simulates typical user activities by automated Python scripts. The second approach is based on Generative Adversarial Networks and generates synthetic data.  Generative Adversarial Networks learn the characteristics of network-based data and generate new data with the same underlying characteristics. While the first approach is able to create new data sets, the second approach can be used to enrich existing data sets with additional data. 

Finally, this work provides two contributions to the detection of attack scenarios. The first contribution provides a general concept for attack detection, which is oriented towards the typical phases of attack scenarios. The second contribution proposes an unsupervised and a supervised method for detecting slow port scans with high accuracy.
KW  - Data Mining
KW  - Corporate Network
KW  - Angriff
KW  - IT-Sicherheit
KW  - Netzwerkdaten
KW  - Intrusion Detection
KW  - Datensicherung
KW  - Neuronale Netze
KW  - Eindringerkennung
Y1  - 2021
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-219561
ER  - 
TY  - THES
A1  - Steininger, Michael
T1  - Deep Learning for Geospatial Environmental Regression
T1  - Deep Learning für Regressionsmodelle mit georäumlichen Umweltdaten
N2  - Environmental issues have emerged especially since humans burned fossil fuels, which led to air pollution and climate change that harm the environment. These issues’ substantial consequences evoked strong efforts towards assessing the state of our environment.

Various environmental machine learning (ML) tasks aid these efforts. These tasks concern environmental data but are common ML tasks otherwise, i.e., datasets are split (training, validatition, test), hyperparameters are optimized on validation data, and test set metrics measure a model’s generalizability. This work focuses on the following environmental ML tasks: Regarding air pollution, land use regression (LUR) estimates air pollutant concentrations at locations where no measurements are available based on measured locations and each location’s land use (e.g., industry, streets). For LUR, this work uses data from London (modeled) and Zurich (measured). Concerning climate change, a common ML task is model output statistics (MOS), where a climate model’s output for a study area is altered to better fit Earth observations and provide more accurate climate data. This work uses the regional climate model (RCM) REMO and Earth observations from the E-OBS dataset for MOS. Another task regarding climate is grain size distribution interpolation where soil properties at locations without measurements are estimated based on the few measured locations. This can provide climate models with soil information, that is important for hydrology. For this task, data from Lower Franconia is used.

Such environmental ML tasks commonly have a number of properties: (i) geospatiality, i.e., their data refers to locations relative to the Earth’s surface. (ii) The environmental variables to estimate or predict are usually continuous. (iii) Data can be imbalanced due to relatively rare extreme events (e.g., extreme precipitation). (iv) Multiple related potential target variables can be available per location, since measurement devices often contain different sensors. (v) Labels are spatially often only sparsely available since conducting measurements at all locations of interest is usually infeasible. These properties present challenges but also opportunities when designing ML methods for such tasks.

In the past, environmental ML tasks have been tackled with conventional ML methods, such as linear regression or random forests (RFs). However, the field of ML has made tremendous leaps beyond these classic models through deep learning (DL). In DL, models use multiple layers of neurons, producing increasingly higher-level feature representations with growing layer depth. DL has made previously infeasible ML tasks feasible, improved the performance for many tasks in comparison to existing ML models significantly, and eliminated the need for manual feature engineering in some domains due to its ability to learn features from raw data. To harness these advantages for environmental domains it is promising to develop novel DL methods for environmental ML tasks.

This thesis presents methods for dealing with special challenges and exploiting opportunities inherent to environmental ML tasks in conjunction with DL. To this end, the proposed methods explore the following techniques: (i) Convolutions as in convolutional neural networks (CNNs) to exploit reoccurring spatial patterns in geospatial data. (ii) Posing the problems as regression tasks to estimate the continuous variables. (iii) Density-based weighting to improve estimation performance for rare and extreme events. (iv) Multi-task learning to make use of multiple related target variables. (v) Semi–supervised learning to cope with label sparsity. Using these techniques, this thesis considers four research questions: (i) Can air pollution be estimated without manual feature engineering? This is answered positively by the introduction of the CNN-based LUR model MapLUR as well as the off-the-shelf LUR solution OpenLUR. (ii) Can colocated pollution data improve spatial air pollution models? Multi-task learning for LUR is developed for this, showing potential for improvements with colocated data. (iii) Can DL models improve the quality of climate model outputs? The proposed DL climate MOS architecture ConvMOS demonstrates this. Additionally, semi-supervised training of multilayer perceptrons (MLPs) for grain size distribution interpolation is presented, which can provide improved input data. (iv) Can DL models be taught to better estimate climate extremes? To this end, density-based weighting for imbalanced regression (DenseLoss) is proposed and applied to the DL architecture ConvMOS, improving climate extremes estimation. These methods show how especially DL techniques can be developed for environmental ML tasks with their special characteristics in mind. This allows for better models than previously possible with conventional ML, leading to more accurate assessment and better understanding of the state of our environment.
N2  - Umweltprobleme sind vor allem seit der Verbrennung fossiler Brennstoffe durch den Menschen entstanden. Dies hat zu Luftverschmutzung und Klimawandel geführt, was die Umwelt schädigt. Die schwerwiegenden Folgen dieser Probleme haben starke Bestrebungen ausgelöst, den Zustand unserer Umwelt zu untersuchen.

Verschiedene Ansätze des maschinellen Lernens (ML) im Umweltbereich unterstützen diese Bestrebungen. Bei diesen Aufgaben handelt es sich um gewöhnliche ML-Aufgaben, z. B. werden die Datensätze aufgeteilt (Training, Validation, Test), Hyperparameter werden auf den Validierungsdaten optimiert, und die Metriken auf den Testdaten messen die Generalisierungsfähigkeit eines Modells, aber sie befassen sich mit Umweltdaten. Diese Arbeit konzentriert sich auf die folgenden Umwelt-ML-Aufgaben: In Bezug auf Luftverschmutzung schätzt Land Use Regression (LUR) die Luftschadstoffkonzentration an Orten, an denen keine Messungen verfügbar sind auf Basis von gemessenen Orten und der Landnutzung (z. B. Industrie, Straßen) der Orte. Für LUR werden in dieser Arbeit Daten aus London (modelliert) und Zürich (gemessen) verwendet. Im Zusammenhang mit dem Klimawandel ist eine häufige ML-Aufgabe Model Output Statistics (MOS), bei der die Ausgaben eines Klimamodells so angepasst werden, dass sie mit Erdbeobachtungen besser übereinstimmen. Dadurch werden genauere Klimadaten erzeugt. Diese Arbeit verwendet das regionale Klimamodell REMO und Erdbeobachtungen aus dem E-OBS-Datensatz für MOS. Eine weitere Aufgabe im Zusammenhang mit dem Klima ist die Interpolation von Korngrößenverteilungen. Hierbei werden Bodeneigenschaften an Orten ohne Messungen auf Basis von wenigen gemessenen Orten geschätzt, um Klimamodelle mit Bodeninformationen zu versorgen, die für die Hydrologie wichtig sind. Für diese Aufgabe werden in dieser Arbeit Bodenmessungen aus Unterfranken herangezogen.

Solche Umwelt-ML-Aufgaben haben oft eine Reihe von Eigenschaften: (i) Georäumlichkeit, d. h. ihre Daten beziehen sich auf Standorte relativ zur Erdoberfläche. (ii) Die zu schätzenden oder vorherzusagenden Umweltvariablen sind normalerweise kontinuierlich. (iii) Daten können unbalanciert sein, was auf relativ seltene Extremereignisse (z. B. extreme Niederschläge) zurückzuführen ist. (iv) Pro Standort können mehrere verwandte potenzielle Zielvariablen verfügbar sein, da Messgeräte oft verschiedene Sensoren enthalten. (v) Zielwerte sind räumlich oft nur spärlich vorhanden, da die Durchführung von Messungen an allen gewünschten Orten in der Regel nicht möglich ist. Diese Eigenschaften stellen eine Herausforderung, aber auch eine Chance bei der Entwicklung von ML-Methoden für derlei Aufgaben dar.

In der Vergangenheit wurden ML-Aufgaben im Umweltbereich mit konventionellen ML-Methoden angegangen, wie z. B. lineare Regression oder Random Forests (RFs). In den letzten Jahren hat der Bereich ML jedoch durch Deep Learning (DL) enorme Fortschritte über diese klassischen Modelle hinaus gemacht. Bei DL verwenden die Modelle mehrere Schichten von Neuronen, die mit zunehmender Schichtungstiefe immer abstraktere Merkmalsdarstellungen erzeugen. DL hat zuvor undurchführbare ML-Aufgaben realisierbar gemacht, die Leistung für viele Aufgaben im Vergleich zu bestehenden ML-Modellen erheblich verbessert und die Notwendigkeit für manuelles Feature-Engineering in einigen Bereichen aufgrund seiner Fähigkeit, Features aus Rohdaten zu lernen, eliminiert. Um diese Vorteile für ML-Aufgaben in der Umwelt nutzbar zu machen, ist es vielversprechend, geeignete DL-Methoden für diesen Bereich zu entwickeln.

In dieser Arbeit werden Methoden zur Bewältigung der besonderen Herausforderungen und zur Nutzung der Möglichkeiten von Umwelt-ML-Aufgaben in Verbindung mit DL vorgestellt. Zu diesem Zweck werden in den vorgeschlagenen Methoden die folgenden Techniken untersucht: (i) Faltungen wie in Convolutional Neural Networks (CNNs), um wiederkehrende räumliche Muster in Geodaten zu nutzen. (ii) Probleme als Regressionsaufgaben stellen, um die kontinuierlichen Variablen zu schätzen. (iii) Dichtebasierte Gewichtung zur Verbesserung der Schätzungen bei seltenen und extremen Ereignissen. (iv) Multi-Task-Lernen, um mehrere verwandte Zielvariablen zu nutzen. (v) Halbüber- wachtes Lernen, um auch mit wenigen bekannten Zielwerten zurechtzukommen. Mithilfe dieser Techniken werden in der Arbeit vier Forschungsfragen untersucht: (i) Kann Luftverschmutzung ohne manuelles Feature Engineering geschätzt werden? Dies wird durch die Einführung des CNN-basierten LUR-Modells MapLUR sowie der automatisierten LUR–Lösung OpenLUR positiv beantwortet. (ii) Können kolokalisierte Verschmutzungsdaten räumliche Luftverschmutzungsmodelle verbessern? Hierfür wird Multi-Task-Learning für LUR entwickelt, das Potenzial für Verbesserungen mit kolokalisierten Daten zeigt. (iii) Können DL-Modelle die Qualität der Ausgaben von Klimamodellen verbessern? Die vorgeschlagene DL-MOS-Architektur ConvMOS demonstriert das. Zusätzlich wird halbüberwachtes Training von Multilayer Perceptrons (MLPs) für die Interpolation von Korngrößenverteilungen vorgestellt, das verbesserte Eingabedaten liefern kann. (iv) Kann man DL-Modellen beibringen, Klimaextreme besser abzuschätzen? Zu diesem Zweck wird eine dichtebasierte Gewichtung für unbalancierte Regression (DenseLoss) vorgeschlagen und auf die DL-Architektur ConvMOS angewendet, um die Schätzung von Klimaextremen zu verbessern. Diese Methoden zeigen, wie speziell DL-Techniken für Umwelt-ML-Aufgaben unter Berücksichtigung ihrer besonderen Eigenschaften entwickelt werden können. Dies ermöglicht bessere Modelle als konventionelles ML bisher erlaubt hat, was zu einer genaueren Bewertung und einem besseren Verständnis des Zustands unserer Umwelt führt.
KW  - Deep learning
KW  - Modellierung
KW  - Umwelt
KW  - Geospatial
KW  - Environmental
KW  - Regression
KW  - Neuronales Netz
KW  - Maschinelles Lernen
KW  - Geoinformationssystem
Y1  - 2023
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-313121
ER  - 
TY  - THES
A1  - Niebler, Thomas
T1  - Extracting and Learning Semantics from Social Web Data
T1  - Extraktion und Lernen von Semantik aus Social Web-Daten
N2  - Making machines understand natural language is a dream of mankind that existed
since a very long time. Early attempts at programming machines to converse with
humans in a supposedly intelligent way with humans relied on phrase lists and simple
keyword matching. However, such approaches cannot provide semantically adequate
answers, as they do not consider the specific meaning of the conversation. Thus, if we
want to enable machines to actually understand language, we need to be able to access
semantically relevant background knowledge. For this, it is possible to query so-called
ontologies, which are large networks containing knowledge about real-world entities
and their semantic relations. However, creating such ontologies is a tedious task, as often
extensive expert knowledge is required. Thus, we need to find ways to automatically
construct and update ontologies that fit human intuition of semantics and semantic
relations. More specifically, we need to determine semantic entities and find relations
between them. While this is usually done on large corpora of unstructured text, previous
work has shown that we can at least facilitate the first issue of extracting entities by
considering special data such as tagging data or human navigational paths. Here, we do
not need to detect the actual semantic entities, as they are already provided because of
the way those data are collected. Thus we can mainly focus on the problem of assessing
the degree of semantic relatedness between tags or web pages. However, there exist
several issues which need to be overcome, if we want to approximate human intuition of
semantic relatedness. For this, it is necessary to represent words and concepts in a way
that allows easy and highly precise semantic characterization. This also largely depends
on the quality of data from which these representations are constructed.
In this thesis, we extract semantic information from both tagging data created by users
of social tagging systems and human navigation data in different semantic-driven social
web systems. Our main goal is to construct high quality and robust vector representations
of words which can the be used to measure the relatedness of semantic concepts.
First, we show that navigation in the social media systems Wikipedia and BibSonomy is
driven by a semantic component. After this, we discuss and extend methods to model
the semantic information in tagging data as low-dimensional vectors. Furthermore, we
show that tagging pragmatics influences different facets of tagging semantics. We then
investigate the usefulness of human navigational paths in several different settings on
Wikipedia and BibSonomy for measuring semantic relatedness. Finally, we propose
a metric-learning based algorithm in adapt pre-trained word embeddings to datasets
containing human judgment of semantic relatedness.
This work contributes to the field of studying semantic relatedness between words
by proposing methods to extract semantic relatedness from web navigation, learn highquality
and low-dimensional word representations from tagging data, and to learn
semantic relatedness from any kind of vector representation by exploiting human
feedback. Applications first and foremest lie in ontology learning for the Semantic Web,
but also semantic search or query expansion.
N2  - Einer der großen Träume der Menschheit ist es, Maschinen dazu zu bringen, natürliche
Sprache zu verstehen. Frühe Versuche, Computer dahingehend zu programmieren, dass
sie mit Menschen vermeintlich intelligente Konversationen führen können, basierten
hauptsächlich auf Phrasensammlungen und einfachen Stichwortabgleichen. Solche
Ansätze sind allerdings nicht in der Lage, inhaltlich adäquate Antworten zu liefern, da
der tatsächliche Inhalt der Konversation nicht erfasst werden kann. Folgerichtig ist es
notwendig, dass Maschinen auf semantisch relevantes Hintergrundwissen zugreifen
können, um diesen Inhalt zu verstehen. Solches Wissen ist beispielsweise in Ontologien
vorhanden. Ontologien sind große Datenbanken von vernetztem Wissen über Objekte
und Gegenstände der echten Welt sowie über deren semantische Beziehungen. Das
Erstellen solcher Ontologien ist eine sehr kostspielige und aufwändige Aufgabe, da oft
tiefgreifendes Expertenwissen benötigt wird. Wir müssen also Wege finden, um Ontologien
automatisch zu erstellen und aktuell zu halten, und zwar in einer Art und Weise,
dass dies auch menschlichem Empfinden von Semantik und semantischer Ähnlichkeit
entspricht. Genauer gesagt ist es notwendig, semantische Entitäten und deren Beziehungen
zu bestimmen. Während solches Wissen üblicherweise aus Textkorpora extrahiert
wird, ist es möglich, zumindest das erste Problem - semantische Entitäten zu bestimmen
- durch Benutzung spezieller Datensätze zu umgehen, wie zum Beispiel Tagging- oder
Navigationsdaten. In diesen Arten von Datensätzen ist es nicht notwendig, Entitäten
zu extrahieren, da sie bereits aufgrund inhärenter Eigenschaften bei der Datenakquise
vorhanden sind. Wir können uns also hauptsächlich auf die Bestimmung von semantischen
Relationen und deren Intensität fokussieren. Trotzdem müssen hier noch einige
Hindernisse überwunden werden. Beispielsweise ist es notwendig, Repräsentationen
für semantische Entitäten zu finden, so dass es möglich ist, sie einfach und semantisch
hochpräzise zu charakterisieren. Dies hängt allerdings auch erheblich von der Qualität
der Daten ab, aus denen diese Repräsentationen konstruiert werden.
In der vorliegenden Arbeit extrahieren wir semantische Informationen sowohl aus
Taggingdaten, von Benutzern sozialer Taggingsysteme erzeugt, als auch aus Navigationsdaten
von Benutzern semantikgetriebener Social Media-Systeme. Das Hauptziel
dieser Arbeit ist es, hochqualitative und robuste Vektordarstellungen von Worten zu
konstruieren, die dann dazu benutzt werden können, die semantische Ähnlichkeit
von Konzepten zu bestimmen. Als erstes zeigen wir, dass Navigation in Social Media Systemen
unter anderem durch eine semantische Komponente getrieben wird. Danach
diskutieren und erweitern wir Methoden, um die semantische Information in Taggingdaten
als niedrigdimensionale sogenannte “Embeddings” darzustellen. Darüberhinaus
demonstrieren wir, dass die Taggingpragmatik verschiedene Facetten der Taggingsemantik
beeinflusst. Anschließend untersuchen wir, inwieweit wir menschliche Navigationspfade
zur Bestimmung semantischer Ähnlichkeit benutzen können. Hierzu betrachten
wir mehrere Datensätze, die Navigationsdaten in verschiedenen Rahmenbedingungen
beinhalten. Als letztes stellen wir einen neuartigen Algorithmus vor, um bereits
trainierte Word Embeddings im Nachhinein an menschliche Intuition von Semantik
anzupassen.
Diese Arbeit steuert wertvolle Beiträge zum Gebiet der Bestimmung von semantischer
Ähnlichkeit bei: Es werden Methoden vorgestellt werden, um hochqualitative semantische
Information aus Web-Navigation und Taggingdaten zu extrahieren, diese mittels
niedrigdimensionaler Vektordarstellungen zu modellieren und selbige schließlich besser
an menschliches Empfinden von semantischer Ähnlichkeit anzupassen, indem aus
genau diesem Empfinden gelernt wird. Anwendungen liegen in erster Linie darin,
Ontologien für das Semantic Web zu lernen, allerdings auch in allen Bereichen, die
Vektordarstellungen von semantischen Entitäten benutzen.
KW  - Semantik
KW  - Maschinelles Lernen
KW  - Soziale Software
KW  - Semantics
KW  - User Behavior
KW  - Social Web
KW  - Machine Learning
Y1  - 2019
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-178666
ER  - 
TY  - THES
A1  - Kobs, Konstantin
T1  - Think outside the Black Box: Model-Agnostic Deep Learning with Domain Knowledge
T1  - Think outside the Black Box: Modellagnostisches Deep Learning mit Domänenwissen
N2  - Deep Learning (DL) models are trained on a downstream task by feeding (potentially preprocessed) input data through a trainable Neural Network (NN) and updating its parameters to minimize the loss function between the predicted and the desired output. While this general framework has mainly remained unchanged over the years, the architectures of the trainable models have greatly evolved. Even though it is undoubtedly important to choose the right architecture, we argue that it is also beneficial to develop methods that address other components of the training process. We hypothesize that utilizing domain knowledge can be helpful to improve DL models in terms of performance and/or efficiency. Such model-agnostic methods can be applied to any existing or future architecture. Furthermore, the black box nature of DL models motivates the development of techniques to understand their inner workings. Considering the rapid advancement of DL architectures, it is again crucial to develop model-agnostic methods.
In this thesis, we explore six principles that incorporate domain knowledge to understand or improve models. They are applied either on the input or output side of the trainable model. Each principle is applied to at least two DL tasks, leading to task-specific implementations. To understand DL models, we propose to use Generated Input Data coming from a controllable generation process requiring knowledge about the data properties. This way, we can understand the model’s behavior by analyzing how it changes when one specific high-level input feature changes in the generated data. On the output side, Gradient-Based Attribution methods create a gradient at the end of the NN and then propagate it back to the input, indicating which low-level input features have a large influence on the model’s prediction. The resulting input features can be interpreted by humans using domain knowledge.
To improve the trainable model in terms of downstream performance, data and compute efficiency, or robustness to unwanted features, we explore principles that each address one of the training components besides the trainable model. Input Masking and Augmentation directly modifies the training input data, integrating knowledge about the data and its impact on the model’s output. We also explore the use of Feature Extraction using Pretrained Multimodal Models which can be seen as a beneficial preprocessing step to extract useful features. When no training data is available for the downstream task, using such features and domain knowledge expressed in other modalities can result in a Zero-Shot Learning (ZSL) setting, completely eliminating the trainable model. The Weak Label Generation principle produces new desired outputs using knowledge about the labels, giving either a good pretraining or even exclusive training dataset to solve the downstream task. Finally, improving and choosing the right Loss Function is another principle we explore in this thesis. Here, we enrich existing loss functions with knowledge about label interactions or utilize and combine multiple task-specific loss functions in a multitask setting.
We apply the principles to classification, regression, and representation tasks as well as to image and text modalities. We propose, apply, and evaluate existing and novel methods to understand and improve the model. Overall, this thesis introduces and evaluates methods that complement the development and choice of DL model architectures.
N2  - Deep-Learning-Modelle (DL-Modelle) werden trainiert, indem potenziell vorverarbeitete Eingangsdaten durch ein trainierbares Neuronales Netz (NN) geleitet und dessen Parameter aktualisiert werden, um die Verlustfunktion zwischen der Vorhersage und der gewünschten Ausgabe zu minimieren. Während sich dieser allgemeine Ablauf kaum geändert hat, haben sich die verwendeten NN-Architekturen erheblich weiterentwickelt. Auch wenn die Wahl der Architektur für die Aufgabe zweifellos wichtig ist, schlagen wir in dieser Arbeit vor, Methoden für andere Komponenten des Trainingsprozesses zu entwickeln. Wir vermuten, dass die Verwendung von Domänenwissen hilfreich bei der Verbesserung von DL-Modellen bezüglich ihrer Leistung und/oder Effizienz sein kann. Solche modellagnostischen Methoden sind dann bei jeder bestehenden oder zukünftigen NN-Architektur anwendbar. Die Black-Box-Natur von DL-Modellen motiviert zudem die Entwicklung von Methoden, die zum Verständnis der Funktionsweise dieser Modelle beitragen. Angesichts der schnellen Architektur-Entwicklung ist es wichtig, modellagnostische Methoden zu entwickeln.
In dieser Arbeit untersuchen wir sechs Prinzipien, die Domänenwissen verwenden, um Modelle zu verstehen oder zu verbessern. Sie werden auf Trainingskomponenten im Eingang oder Ausgang des Modells angewendet. Jedes Prinzip wird dann auf mindestens zwei DL-Aufgaben angewandt, was zu aufgabenspezifischen Implementierungen führt. Um DL-Modelle zu verstehen, verwenden wir kontrolliert generierte Eingangsdaten, was Wissen über die Dateneigenschaften benötigt. So können wir das Verhalten des Modells verstehen, indem wir die Ausgabeänderung bei der Änderung von abstrahierten Eingabefeatures beobachten. Wir untersuchen zudem gradienten-basierte Attribution-Methoden, die am Ausgang des NN einen Gradienten anlegen und zur Eingabe zurückführen. Eingabefeatures mit großem Einfluss auf die Modellvorhersage können so identifiziert und von Menschen mit Domänenwissen interpretiert werden.
Um Modelle zu verbessern (in Bezug auf die Ergebnisgüte, Daten- und Recheneffizienz oder Robustheit gegenüber ungewollten Eingaben), untersuchen wir Prinzipien, die jeweils eine Trainingskomponente neben dem trainierbaren Modell betreffen. Das Maskieren und Augmentieren von Eingangsdaten modifiziert direkt die Trainingsdaten und integriert dabei Wissen über ihren Einfluss auf die Modellausgabe. Die Verwendung von vortrainierten multimodalen Modellen zur Featureextraktion kann als ein Vorverarbeitungsschritt angesehen werden. Bei fehlenden Trainingsdaten können die Features und Domänenwissen in anderen Modalitäten als Zero-Shot Setting das trainierbare Modell gänzlich eliminieren. Das Weak-Label-Generierungs-Prinzip erzeugt neue gewünschte Ausgaben anhand von Wissen über die Labels, was zu einem Pretrainings- oder exklusiven Trainigsdatensatz führt. Schließlich ist die Verbesserung und Auswahl der Verlustfunktion ein weiteres untersuchtes Prinzip. Hier reichern wir bestehende Verlustfunktionen mit Wissen über Label-Interaktionen an oder kombinieren mehrere aufgabenspezifische Verlustfunktionen als Multi-Task-Ansatz.
Wir wenden die Prinzipien auf Klassifikations-, Regressions- und Repräsentationsaufgaben sowie Bild- und Textmodalitäten an. Wir stellen bestehende und neue Methoden vor, wenden sie an und evaluieren sie für das Verstehen und Verbessern von DL-Modellen, was die Entwicklung und Auswahl von DL-Modellarchitekturen ergänzt.
KW  - Deep learning
KW  - Neuronales Netz
KW  - Maschinelles Lernen
KW  - Machine Learning
KW  - Model-Agnostic
KW  - Domain Knowledge
Y1  - 2024
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-349689
ER  -