TY - THES A1 - Navarro Bullock, Beate T1 - Privacy aware social information retrieval and spam filtering using folksonomies T1 - Suche und Spam Entdeckung anhand von Folksonomien unter Beachtung datenschutzrelevanter Aspekte N2 - Social interactions as introduced by Web 2.0 applications during the last decade have changed the way the Internet is used. Today, it is part of our daily lives to maintain contacts through social networks, to comment on the latest developments in microblogging services or to save and share information snippets such as photos or bookmarks online. Social bookmarking systems are part of this development. Users can share links to interesting web pages by publishing bookmarks and providing descriptive keywords for them. The structure which evolves from the collection of annotated bookmarks is called a folksonomy. The sharing of interesting and relevant posts enables new ways of retrieving information from the Web. Users can search or browse the folksonomy looking at resources related to specific tags or users. Ranking methods known from search engines have been adjusted to facilitate retrieval in social bookmarking systems. Hence, social bookmarking systems have become an alternative or addendum to search engines. In order to better understand the commonalities and differences of social bookmarking systems and search engines, this thesis compares several aspects of the two systems' structure, usage behaviour and content. This includes the use of tags and query terms, the composition of the document collections and the rankings of bookmarks and search engine URLs. Searchers (recorded via session ids), their search terms and the clicked on URLs can be extracted from a search engine query logfile. They form similar links as can be found in folksonomies where a user annotates a resource with tags. We use this analogy to build a tripartite hypergraph from query logfiles (a logsonomy), and compare structural and semantic properties of log- and folksonomies. Overall, we have found similar behavioural, structural and semantic characteristics in both systems. Driven by this insight, we investigate, if folksonomy data can be of use in web information retrieval in a similar way to query log data: we construct training data from query logs and a folksonomy to build models for a learning-to-rank algorithm. First experiments show a positive correlation of ranking results generated from the ranking models of both systems. The research is based on various data collections from the social bookmarking systems BibSonomy and Delicious, Microsoft's search engine MSN (now Bing) and Google data. To maintain social bookmarking systems as a good source for information retrieval, providers need to fight spam. This thesis introduces and analyses different features derived from the specific characteristics of social bookmarking systems to be used in spam detection classification algorithms. Best results can be derived from a combination of profile, activity, semantic and location-based features. Based on the experiments, a spam detection framework which identifies and eliminates spam activities for the social bookmarking system BibSonomy has been developed. The storing and publication of user-related bookmarks and profile information raises questions about user data privacy. What kinds of personal information is collected and how do systems handle user-related items? In order to answer these questions, the thesis looks into the handling of data privacy in the social bookmarking system BibSonomy. Legal guidelines about how to deal with the private data collected and processed in social bookmarking systems are also presented. Experiments will show that the consideration of user data privacy in the process of feature design can be a first step towards strengthening data privacy. N2 - Soziale Interaktion, wie sie im letzten Jahrzehnt durch Web 2.0 Anwendungen eingeführt wurde, änderte die Art und Weise wie wir das Internet nutzen. Heute gehört es zum Alltag, Kontakte in sozialen Netzwerken zu pflegen, die aktuellsten Entwicklungen in Mikroblogging - Anwendungen zu kommentieren, oder interessante Informationen wie Fotos oder Weblinks digital zu speichern und zu teilen. Soziale Lesezeichensysteme sind ein Teil dieser Entwicklung. Nutzer können Links zu interessanten Webseiten teilen, indem sie diese mit aussagekräftigen Begriffen (Tags) versehen und veröffentlichen. Die Struktur, die aus der Sammlung von annotierten Lesezeichen entsteht, wird Folksonomy genannt. Nutzer können diese durchforsten und nach Links mit bestimmten Tags oder von bestimmten Nutzern suchen. Ranking Methoden, die schon in Suchmaschinen implementiert wurden, wurden angepasst, um die Suche in sozialen Lesezeichensystemen zu erleichtern. So haben sich diese Systeme mittlerweile zu einer ernsthaften Alternative oder Ergänzung zu traditionellen Suchmaschinen entwickelt. Um Gemeinsamkeiten und Unterschiede in der Struktur, Nutzung und in den Inhalten von sozialen Lesezeichensystemen und Suchmaschinen besser zu verstehen, werden in dieser Arbeit die Verwendung von Tags und Suchbegriffen, die Zusammensetzung der Dokumentensammlungen und der Aufbau der Rankings verglichen und diskutiert. Aus den Suchmaschinennutzern eines Logfiles, ihren Anfragen und den geklickten Rankingergebnissen lässt sich eine ähnlich tripartite Struktur wie die der Folksonomy aufbauen. Die Häufigkeitsverteilungen sowie strukturellen Eigenschaften dieses Graphen werden mit der Struktur einer Folksonomy verglichen. Insgesamt lassen sich ein ähnliches Nutzerverhalten und ähnliche Strukturen aus beiden Ansätzen ableiten. Diese Erkenntnis nutzend werden im letzten Schritt der Untersuchung Trainings- und Testdaten aus Suchmaschinenlogfiles und Folksonomien generiert und ein Rankingalgorithmus trainiert. Erste Analysen ergeben, dass die Rankings generiert aus impliziten Feedback von Suchmaschinen und Folksonomien, positiv korreliert sind. Die Untersuchungen basieren auf verschiedenen Datensammlungen aus den sozialen Lesezeichensystemen BibSonomy und Delicious, und aus Daten der Suchmaschinen MSN (jetzt Bing) und Google. Damit soziale Lesezeichensysteme als qualitativ hochwertige Informationssysteme erhalten bleiben, müssen Anbieter den in den Systemen anfallenden Spam bekämpfen. In dieser Arbeit werden verschiedene Merkmale vom legitimen und nicht legitimen Nutzern aus den Besonderheiten von Folksonomien abgeleitet und auf ihre Eignung zur Spamentdeckung getestet. Die besten Ergebnisse ergeben eine Kombination aus Profil- Aktivitäts-, semantischen und ortsbezogenen Merkmalen. Basierend auf den Experimenten wird eine Spamentdeckungsanwendung entwickelt mit Hilfe derer Spam in sozialen Lesezeichensystem BibSonomy erkannt und eliminiert wird. Mit der Speicherung und Veröffentlichung von benutzerbezogenen Daten ergibt sich die Frage, ob die persönlichen Daten eines Nutzers in sozialen Lesezeichensystemen noch genügend geschützt werden. Welche Art der persönlichen Daten werden in diesen Systemen gesammelt und wie gehen existierende Systeme mit diesen Daten um? Um diese Fragen zu beantworten, wird die Anwendung BibSonomy unter technischen und datenschutzrechtlichen Gesichtspunkten analysiert. Es werden Richtlinien erarbeitet, die als Leitfaden für den Umgang mit persönlichen Daten bei der Entwicklung und dem Betrieb von sozialen Lesezeichen dienen sollen. Experimente zur Spamklassifikation zeigen, dass die Berücksichtigung von datenschutzrechtlichen Aspekten bei der Auswahl von Klassifikationsmerkmalen persönliche Daten schützen können, ohne die Performanz des Systems bedeutend zu verringern. KW - Information Retrieval KW - Data Mining KW - Web2.0 KW - Tagging KW - Spam Detection KW - Soziales Netzwerk Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-120941 ER - TY - THES A1 - Winkler, Marco T1 - On the Role of Triadic Substructures in Complex Networks T1 - Über die Bedeutung von Dreiecksstrukturen in komplexen Netzwerken N2 - In the course of the growth of the Internet and due to increasing availability of data, over the last two decades, the field of network science has established itself as an own area of research. With quantitative scientists from computer science, mathematics, and physics working on datasets from biology, economics, sociology, political sciences, and many others, network science serves as a paradigm for interdisciplinary research. One of the major goals in network science is to unravel the relationship between topological graph structure and a network’s function. As evidence suggests, systems from the same fields, i.e. with similar function, tend to exhibit similar structure. However, it is still vague whether a similar graph structure automatically implies likewise function. This dissertation aims at helping to bridge this gap, while particularly focusing on the role of triadic structures. After a general introduction to the main concepts of network science, existing work devoted to the relevance of triadic substructures is reviewed. A major challenge in modeling triadic structure is the fact that not all three-node subgraphs can be specified independently of each other, as pairs of nodes may participate in multiple of those triadic subgraphs. In order to overcome this obstacle, we suggest a novel class of generative network models based on so called Steiner triple systems. The latter are partitions of a graph’s vertices into pair-disjoint triples (Steiner triples). Thus, the configurations on Steiner triples can be specified independently of each other without overdetermining the network’s link structure. Subsequently, we investigate the most basic realization of this new class of models. We call it the triadic random graph model (TRGM). The TRGM is parametrized by a probability distribution over all possible triadic subgraph patterns. In order to generate a network instantiation of the model, for all Steiner triples in the system, a pattern is drawn from the distribution and adjusted randomly on the Steiner triple. We calculate the degree distribution of the TRGM analytically and find it to be similar to a Poissonian distribution. Furthermore, it is shown that TRGMs possess non-trivial triadic structure. We discover inevitable correlations in the abundance of certain triadic subgraph patterns which should be taken into account when attributing functional relevance to particular motifs – patterns which occur significantly more frequently than expected at random. Beyond, the strong impact of the probability distributions on the Steiner triples on the occurrence of triadic subgraphs over the whole network is demonstrated. This interdependence allows us to design ensembles of networks with predefined triadic substructure. Hence, TRGMs help to overcome the lack of generative models needed for assessing the relevance of triadic structure. We further investigate whether motifs occur homogeneously or heterogeneously distributed over a graph. Therefore, we study triadic subgraph structures in each node’s neighborhood individually. In order to quantitatively measure structure from an individual node’s perspective, we introduce an algorithm for node-specific pattern mining for both directed unsigned, and undirected signed networks. Analyzing real-world datasets, we find that there are networks in which motifs are distributed highly heterogeneously, bound to the proximity of only very few nodes. Moreover, we observe indication for the potential sensitivity of biological systems to a targeted removal of these critical vertices. In addition, we study whole graphs with respect to the homogeneity and homophily of their node-specific triadic structure. The former describes the similarity of subgraph distributions in the neighborhoods of individual vertices. The latter quantifies whether connected vertices are structurally more similar than non-connected ones. We discover these features to be characteristic for the networks’ origins. Moreover, clustering the vertices of graphs regarding their triadic structure, we investigate structural groups in the neural network of C. elegans, the international airport-connection network, and the global network of diplomatic sentiments between countries. For the latter we find evidence for the instability of triangles considered socially unbalanced according to sociological theories. Finally, we utilize our TRGM to explore ensembles of networks with similar triadic substructure in terms of the evolution of dynamical processes acting on their nodes. Focusing on oscillators, coupled along the graphs’ edges, we observe that certain triad motifs impose a clear signature on the systems’ dynamics, even when embedded in a larger network structure. N2 - Im Zuge des Wachstums des Internets und der Verfügbarkeit nie da gewesener Datenmengen, hat sich, während der letzten beiden Jahrzehnte, die Netzwerkwissenschaft zu einer eigenständigen Forschungsrichtung entwickelt. Mit Wissenschaftlern aus quantitativen Feldern wie der Informatik, Mathematik und Physik, die Datensätze aus Biologie, den Wirtschaftswissenschaften, Soziologie, Politikwissenschaft und vielen weiteren Anwendungsgebieten untersuchen, stellt die Netzwerkwissenschaft ein Paradebeispiel interdisziplinärer Forschung dar. Eines der grundlegenden Ziele der Netzwerkwissenschaft ist es, den Zusammenhang zwischen der topologischen Struktur und der Funktion von Netzwerken herauszufinden. Es gibt zahlreiche Hinweise, dass Netz-werke aus den gleichen Bereichen, d.h. Systeme mit ähnlicher Funktion, auch ähnliche Graphstrukturen aufweisen. Es ist allerdings nach wie vor unklar, ob eine ähnliche Graphstruktur generell zu gleicher Funktionsweise führt. Es ist das Ziel der vorliegenden Dissertation, zur Klärung dieser Frage beizutragen. Das Hauptaugenmerk wird hierbei auf der Rolle von Dreiecksstrukturen liegen. Nach einer allgemeinen Einführung der wichtigsten Grundlagen der Theorie komplexer Netzwerke, wird eine Übersicht über existierende Arbeiten zur Bedeutung von Dreiecksstrukturen gegeben. Eine der größten Herausforderungen bei der Modellierung triadischer Strukturen ist die Tatsache, dass nicht alle Dreiecksbeziehungen in einem Graphen unabhängig voneinander bestimmt werden können, da zwei Knoten an mehreren solcher Dreiecksbeziehungen beteiligt sein können. Um dieses Problem zu lösen, führen wir, basierend auf sogenannten Steiner-Tripel-Systemen, eine neue Klasse generativer Netzwerkmodelle ein. Steiner-Tripel-Systeme sind Zerlegungen der Knoten eines Graphen in paarfremde Tripel (Steiner-Tripel). Daher können die Konfigurationen auf Steiner-Tripeln unabhängig voneinander gewählt werden, ohne dass dies zu einer Überbestimmung der Netzwerkstruktur führen würde. Anschließend untersuchen wir die grundlegendste Realisierung dieser neuen Klasse von Netzwerkmodellen, die wir das triadische Zufallsgraph-Modell (engl. triadic random graph model, TRGM) nennen. TRGMs werden durch eine Wahrscheinlichkeitsverteilung über alle möglichen Dreiecksstrukturen parametrisiert. Um ein konkretes Netzwerk zu erzeugen wird für jedes Steiner-Tripel eine Dreiecksstruktur gemäß der Wahrscheinlichkeitsverteilung gezogen und zufällig auf dem Tripel orientiert. Wir berechnen die Knotengradverteilung des TRGM analytisch und finden heraus, dass diese einer Poissonverteilung ähnelt. Des Weiteren wird gezeigt, dass TRGMs nichttriviale Dreiecksstrukturen aufweisen. Außerdem finden wir unvermeidliche Korrelationen im Auftreten bestimmter Subgraphen, derer man sich bewusst sein sollte. Insbesondere wenn es darum geht, die Bedeutung sogenannter Motive (Strukturen, die signifikant häufiger als zufällig erwartet auftreten) zu beurteilen. Darüber hinaus wird der starke Einfluss der Wahrscheinlichkeitsverteilung auf den Steiner-Tripeln, auf die generelle Dreiecksstruktur der erzeugten Netzwerke gezeigt. Diese Abhängigkeit ermöglicht es, Netzwerkensembles mit vorgegebener Dreiecksstruktur zu konzipieren. Daher helfen TRGMs dabei, den bestehenden Mangel an generativen Netzwerkmodellen, zur Beurteilung der Bedeutung triadischer Strukturen in Graphen, zu beheben. Es wird ferner untersucht, wie homogen Motive räumlich über Graphstrukturen verteilt sind. Zu diesem Zweck untersuchen wir das Auftreten von Dreiecksstrukturen in der Umgebung jedes Knotens separat. Um die Struktur individueller Knoten quantitativ erfassen zu können, führen wir einen Algorithmus zur knotenspezifischen Musterauswertung (node-specific pattern mining) ein, der sowohl auf gerichtete, als auch auf Graphen mit positiven und negativen Kanten angewendet werden kann. Bei der Analyse realer Datensätze beobachten wir, dass Motive in einigen Netzen hochgradig heterogen verteilt, und auf die Umgebung einiger, weniger Knoten beschränkt sind. Darüber hinaus finden wir Hinweise auf die mögliche Fehleranfälligkeit biologischer Systeme auf ein gezieltes Entfernen ebendieser Knoten. Des Weiteren studieren wir ganze Graphen bezüglich der Homogenität und Homophilie ihrer knotenspezifischen Dreiecksmuster. Erstere beschreibt die Ähnlichkeit der lokalen Dreiecksstrukturen zwischen verschiedenen Knoten. Letztere gibt an, ob sich verbundene Knoten bezüglich ihrer Dreiecksstruktur ähnlicher sind, als nicht verbundene Knoten. Wir stellen fest, dass diese Eigenschaften charakteristisch für die Herkunft der jeweiligen Netzwerke sind. Darüber hinaus gruppieren wir die Knoten verschiedener Systeme bezüglich der Ähnlichkeit ihrer lokalen Dreiecksstrukturen. Hierzu untersuchen wir das neuronale Netz von C. elegans, das internationale Flugverbindungsnetzwerk, sowie das Netzwerk internationaler Beziehungen zwischen Staaten. In Letzterem finden wir Hinweise darauf, dass Dreieckskonfigurationen, die nach soziologischen Theorien als unbalanciert gelten, besonders instabil sind. Schließlich verwenden wir unser TRGM, um Netzwerkensembles mit ähnlicher Dreiecksstruktur bezüglich der Eigenschaften dynamischer Prozesse, die auf ihren Knoten ablaufen, zu untersuchen. Wir konzentrieren uns auf Oszillatoren, die entlang der Kanten der Graphen miteinander gekoppelt sind. Hierbei beobachten wir, dass bestimmte Dreiecksmotive charakteristische Merkmale im dynamischen Verhalten der Systeme hinterlassen. Dies ist auch der Fall, wenn die Motive in eine größere Netzwerkstruktur eingebettet sind. KW - Netzwerk KW - Komplexes System KW - Substruktur KW - Dreieck KW - Networks KW - Complex Systems KW - Statistics KW - Machine Learning KW - Biological Networks KW - Statistische Physik KW - Statistische Mechanik KW - Data Mining KW - Maschinelles Lernen KW - Graphentheorie Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-116022 SN - 978-3-7375-5654-5 PB - epubli GmbH CY - Berlin ER -