TY  - THES
A1  - Niebler, Thomas
T1  - Extracting and Learning Semantics from Social Web Data
T1  - Extraktion und Lernen von Semantik aus Social Web-Daten
N2  - Making machines understand natural language is a dream of mankind that existed
since a very long time. Early attempts at programming machines to converse with
humans in a supposedly intelligent way with humans relied on phrase lists and simple
keyword matching. However, such approaches cannot provide semantically adequate
answers, as they do not consider the specific meaning of the conversation. Thus, if we
want to enable machines to actually understand language, we need to be able to access
semantically relevant background knowledge. For this, it is possible to query so-called
ontologies, which are large networks containing knowledge about real-world entities
and their semantic relations. However, creating such ontologies is a tedious task, as often
extensive expert knowledge is required. Thus, we need to find ways to automatically
construct and update ontologies that fit human intuition of semantics and semantic
relations. More specifically, we need to determine semantic entities and find relations
between them. While this is usually done on large corpora of unstructured text, previous
work has shown that we can at least facilitate the first issue of extracting entities by
considering special data such as tagging data or human navigational paths. Here, we do
not need to detect the actual semantic entities, as they are already provided because of
the way those data are collected. Thus we can mainly focus on the problem of assessing
the degree of semantic relatedness between tags or web pages. However, there exist
several issues which need to be overcome, if we want to approximate human intuition of
semantic relatedness. For this, it is necessary to represent words and concepts in a way
that allows easy and highly precise semantic characterization. This also largely depends
on the quality of data from which these representations are constructed.
In this thesis, we extract semantic information from both tagging data created by users
of social tagging systems and human navigation data in different semantic-driven social
web systems. Our main goal is to construct high quality and robust vector representations
of words which can the be used to measure the relatedness of semantic concepts.
First, we show that navigation in the social media systems Wikipedia and BibSonomy is
driven by a semantic component. After this, we discuss and extend methods to model
the semantic information in tagging data as low-dimensional vectors. Furthermore, we
show that tagging pragmatics influences different facets of tagging semantics. We then
investigate the usefulness of human navigational paths in several different settings on
Wikipedia and BibSonomy for measuring semantic relatedness. Finally, we propose
a metric-learning based algorithm in adapt pre-trained word embeddings to datasets
containing human judgment of semantic relatedness.
This work contributes to the field of studying semantic relatedness between words
by proposing methods to extract semantic relatedness from web navigation, learn highquality
and low-dimensional word representations from tagging data, and to learn
semantic relatedness from any kind of vector representation by exploiting human
feedback. Applications first and foremest lie in ontology learning for the Semantic Web,
but also semantic search or query expansion.
N2  - Einer der großen Träume der Menschheit ist es, Maschinen dazu zu bringen, natürliche
Sprache zu verstehen. Frühe Versuche, Computer dahingehend zu programmieren, dass
sie mit Menschen vermeintlich intelligente Konversationen führen können, basierten
hauptsächlich auf Phrasensammlungen und einfachen Stichwortabgleichen. Solche
Ansätze sind allerdings nicht in der Lage, inhaltlich adäquate Antworten zu liefern, da
der tatsächliche Inhalt der Konversation nicht erfasst werden kann. Folgerichtig ist es
notwendig, dass Maschinen auf semantisch relevantes Hintergrundwissen zugreifen
können, um diesen Inhalt zu verstehen. Solches Wissen ist beispielsweise in Ontologien
vorhanden. Ontologien sind große Datenbanken von vernetztem Wissen über Objekte
und Gegenstände der echten Welt sowie über deren semantische Beziehungen. Das
Erstellen solcher Ontologien ist eine sehr kostspielige und aufwändige Aufgabe, da oft
tiefgreifendes Expertenwissen benötigt wird. Wir müssen also Wege finden, um Ontologien
automatisch zu erstellen und aktuell zu halten, und zwar in einer Art und Weise,
dass dies auch menschlichem Empfinden von Semantik und semantischer Ähnlichkeit
entspricht. Genauer gesagt ist es notwendig, semantische Entitäten und deren Beziehungen
zu bestimmen. Während solches Wissen üblicherweise aus Textkorpora extrahiert
wird, ist es möglich, zumindest das erste Problem - semantische Entitäten zu bestimmen
- durch Benutzung spezieller Datensätze zu umgehen, wie zum Beispiel Tagging- oder
Navigationsdaten. In diesen Arten von Datensätzen ist es nicht notwendig, Entitäten
zu extrahieren, da sie bereits aufgrund inhärenter Eigenschaften bei der Datenakquise
vorhanden sind. Wir können uns also hauptsächlich auf die Bestimmung von semantischen
Relationen und deren Intensität fokussieren. Trotzdem müssen hier noch einige
Hindernisse überwunden werden. Beispielsweise ist es notwendig, Repräsentationen
für semantische Entitäten zu finden, so dass es möglich ist, sie einfach und semantisch
hochpräzise zu charakterisieren. Dies hängt allerdings auch erheblich von der Qualität
der Daten ab, aus denen diese Repräsentationen konstruiert werden.
In der vorliegenden Arbeit extrahieren wir semantische Informationen sowohl aus
Taggingdaten, von Benutzern sozialer Taggingsysteme erzeugt, als auch aus Navigationsdaten
von Benutzern semantikgetriebener Social Media-Systeme. Das Hauptziel
dieser Arbeit ist es, hochqualitative und robuste Vektordarstellungen von Worten zu
konstruieren, die dann dazu benutzt werden können, die semantische Ähnlichkeit
von Konzepten zu bestimmen. Als erstes zeigen wir, dass Navigation in Social Media Systemen
unter anderem durch eine semantische Komponente getrieben wird. Danach
diskutieren und erweitern wir Methoden, um die semantische Information in Taggingdaten
als niedrigdimensionale sogenannte “Embeddings” darzustellen. Darüberhinaus
demonstrieren wir, dass die Taggingpragmatik verschiedene Facetten der Taggingsemantik
beeinflusst. Anschließend untersuchen wir, inwieweit wir menschliche Navigationspfade
zur Bestimmung semantischer Ähnlichkeit benutzen können. Hierzu betrachten
wir mehrere Datensätze, die Navigationsdaten in verschiedenen Rahmenbedingungen
beinhalten. Als letztes stellen wir einen neuartigen Algorithmus vor, um bereits
trainierte Word Embeddings im Nachhinein an menschliche Intuition von Semantik
anzupassen.
Diese Arbeit steuert wertvolle Beiträge zum Gebiet der Bestimmung von semantischer
Ähnlichkeit bei: Es werden Methoden vorgestellt werden, um hochqualitative semantische
Information aus Web-Navigation und Taggingdaten zu extrahieren, diese mittels
niedrigdimensionaler Vektordarstellungen zu modellieren und selbige schließlich besser
an menschliches Empfinden von semantischer Ähnlichkeit anzupassen, indem aus
genau diesem Empfinden gelernt wird. Anwendungen liegen in erster Linie darin,
Ontologien für das Semantic Web zu lernen, allerdings auch in allen Bereichen, die
Vektordarstellungen von semantischen Entitäten benutzen.
KW  - Semantik
KW  - Maschinelles Lernen
KW  - Soziale Software
KW  - Semantics
KW  - User Behavior
KW  - Social Web
KW  - Machine Learning
Y1  - 2019
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-178666
ER  - 
TY  - THES
A1  - Budig, Benedikt
T1  - Extracting Spatial Information from Historical Maps: Algorithms and Interaction
T1  - Extraktion räumlicher Informationen aus historischen Landkarten: Algorithmen und Interaktion
N2  - Historical maps are fascinating documents and a valuable source of information for scientists of various disciplines. Many of these maps are available as scanned bitmap images, but in order to make them searchable in useful ways, a structured representation of the contained information is desirable.

This book deals with the extraction of spatial information from historical maps. This cannot be expected to be solved fully automatically (since it involves difficult semantics), but is also too tedious to be done manually at scale.

The methodology used in this book combines the strengths of both computers and humans: it describes efficient algorithms to largely automate information extraction tasks and pairs these algorithms with smart user interactions to handle what is not understood by the algorithm. The effectiveness of this approach is shown for various kinds of spatial documents from the 16th to the early 20th century.
N2  - Historische Landkarten sind faszinierende Dokumente und eine wertvolle Informationsquelle für Wissenschaftler verschiedener Fächer. Viele dieser Karten liegen als gescannte Bitmap-Bilder vor, aber um sie auf nützliche Art durchsuchbar zu machen ist eine strukturierte Repräsentation der enthaltenen Informationen wünschenswert.

Dieses Buch beschäftigt sich mit der Extraktion räumlicher Informationen aus historischen Landkarten. Man kann nicht erwarten, dass dies vollautomatisch geschieht (da komplizierte Semantik involviert ist), aber es ist auch zu aufwändig, um im großen Stil manuell durchgeführt zu werden.

Die Methodik, die in diesem Buch verwendet wird, kombiniert die Stärken von Computern und Menschen: Es werden effiziente Algorithmen beschrieben, die Extraktionsaufgaben weitgehend automatisieren, und dazu passende Nutzerinteraktionen entworfen, mit denen Fälle gelöst werden, die die Algorithmen nicht vestehen. Die Effekitivität dieses Ansatzes wird anhand verschiedener räumlicher Dokumente aus dem 16. bis frühen 20. Jahrhundert gezeigt.
KW  - Karte
KW  - Effizienter Algorithmus
KW  - Interaktion
KW  - Information Extraction
KW  - Smart User Interaction
KW  - Historical Maps
KW  - Itineraries
KW  - Deep Georeferencing
KW  - Benutzerinteraktion
KW  - Historische Landkarten
KW  - Itinerare
KW  - Georeferenzierung
KW  - Historische Karte
KW  - Raumdaten
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-160955
SN  - 978-3-95826-092-4
SN  - 978-3-95826-093-1
N1  - Parallel erschienen als Druckausgabe in Würzburg University Press, ISBN 978-3-95826-092-4, 32,90 Euro.
PB  - Würzburg University Press
CY  - Würzburg
ET  - 1. Auflage
ER  - 
TY  - THES
A1  - Nogatz, Falco
T1  - Defining and Implementing Domain-Specific Languages with Prolog
T1  - Definition und Implementierung domänenspezifischer Sprachen mit Prolog
N2  - The landscape of today’s programming languages is manifold. With the diversity of applications, the difficulty of adequately addressing and specifying the used programs increases. This often leads to newly designed and implemented domain-specific languages. They enable domain experts to express knowledge in their preferred format, resulting in more readable and concise programs. Due to its flexible and declarative syntax without reserved keywords, the logic programming language Prolog is particularly suitable for defining and embedding domain-specific languages.

This thesis addresses the questions and challenges that arise when integrating domain-specific languages into Prolog. We compare the two approaches to define them either externally or internally, and provide assisting tools for each. The grammar of a formal language is usually defined in the extended Backus–Naur form. In this work, we handle this formalism as a domain-specific language in Prolog, and define term expansions that allow to translate it into equivalent definite clause grammars. We present the package library(dcg4pt) for SWI-Prolog, which enriches them by an additional argument to automatically process the term’s corresponding parse tree. To simplify the work with definite clause grammars, we visualise their application by a web-based tracer.

The external integration of domain-specific languages requires the programmer to keep the grammar, parser, and interpreter in sync. In many cases, domain-specific languages can instead be directly embedded into Prolog by providing appropriate operator definitions. In addition, we propose syntactic extensions for Prolog to expand its expressiveness, for instance to state logic formulas with their connectives verbatim. This allows to use all tools that were originally written for Prolog, for instance code linters and editors with syntax highlighting. We present the package library(plammar), a standard-compliant parser for Prolog source code, written in Prolog. It is able to automatically infer from example sentences the required operator definitions with their classes and precedences as well as the required Prolog language extensions. As a result, we can automatically answer the question: Is it possible to model these example sentences as valid Prolog clauses, and how?

We discuss and apply the two approaches to internal and external integrations for several domain-specific languages, namely the extended Backus–Naur form, GraphQL, XPath, and a controlled natural language to represent expert rules in if-then form. The created toolchain with library(dcg4pt) and library(plammar) yields new application opportunities for static Prolog source code analysis, which we also present.
N2  - Die Landschaft der heutigen Programmiersprachen ist vielfältig. Mit ihren unterschiedlichen Anwendungsbereichen steigt zugleich die Schwierigkeit, die eingesetzten Programme adäquat anzusprechen und zu spezifizieren. Immer häufiger werden hierfür domänenspezifische Sprachen entworfen und implementiert. Sie ermöglichen Domänenexperten, Wissen in ihrem bevorzugten Format auszudrücken, was zu lesbareren Programmen führt. Durch ihre flexible und deklarative Syntax ohne vorbelegte Schlüsselwörter ist die logische Programmsprache Prolog besonders geeignet, um domänenspezifische Sprachen zu definieren und einzubetten.

Diese Arbeit befasst sich mit den Fragen und Herausforderungen, die sich bei der Integration von domänenspezifischen Sprachen in Prolog ergeben. Wir vergleichen die zwei Ansätze, sie entweder extern oder intern zu definieren, und stellen jeweils Hilfsmittel zur Verfügung. Die Grammatik einer formalen Sprache wird häufig in der erweiterten Backus–Naur–Form definiert. Diesen Formalismus behandeln wir in dieser Arbeit als eine domänenspezifische Sprache in Prolog und definieren Termexpansionen, die es erlauben, ihn in äquivalente Definite Clause Grammars für Prolog zu übersetzen. Durch das Modul library(dcg4pt) werden sie um ein zusätzliches Argument erweitert, das den Syntaxbaum eines Terms automatisch erzeugt. Um die Arbeit mit Definite Clause Grammars zu erleichtern, visualisieren wir ihre Anwendung in einem webbasierten Tracer.

Meist können domänenspezifische Sprachen jedoch auch mittels passender Operatordefinitionen direkt in Prolog eingebettet werden. Dies ermöglicht die Verwendung aller Werkzeuge, die ursprünglich für Prolog geschrieben wurden, z.B. zum Code-Linting und Syntax-Highlighting. In dieser Arbeit stellen wir den standardkonformen Prolog-Parser library(plammar) vor. Er ist in Prolog geschrieben und in der Lage, aus Beispielsätzen automatisch die erforderlichen Operatoren mit ihren Klassen und Präzedenzen abzuleiten. Um die Ausdruckskraft von Prolog noch zu erweitern, schlagen wir Ergänzungen zum ISO Standard vor. Sie erlauben es, weitere Sprachen direkt einzubinden, und werden ebenfalls von library(plammar) identifiziert. So ist es bspw. möglich, logische Formeln direkt mit den bekannten Symbolen für Konjunktion, Disjunktion, usw. als Prolog-Programme anzugeben.

Beide Ansätze der internen und externen Integration werden für mehrere domänen-spezifische Sprachen diskutiert und beispielhaft für GraphQL, XPath, die erweiterte Backus–Naur–Form sowie Expertenregeln in Wenn–Dann–Form umgesetzt. Die vorgestellten Werkzeuge um library(dcg4pt) und library(plammar) ergeben zudem neue Anwendungsmöglichkeiten auch für die statische Quellcodeanalyse von Prolog-Programmen.
KW  - PROLOG <Programmiersprache>
KW  - Domänenspezifische Sprache
KW  - logic programming
KW  - knowledge representation
KW  - definite clause grammars
Y1  - 2023
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-301872
ER  -