• Treffer 4 von 8
Zurück zur Trefferliste

Semiautomatische Metadaten-Extraktion und Qualitätsmanagement in Workflow-Systemen zur Digitalisierung historischer Dokumente

Semi-automated Metadata Extraction and Quality Management in Workflow Systems for Digitizations of Early Documents

Zitieren Sie bitte immer diese URN: urn:nbn:de:bvb:20-opus-104878
  • Die Extraktion von Metadaten aus historischen Dokumenten ist eine zeitintensive, komplexe und höchst fehleranfällige Tätigkeit, die üblicherweise vom menschlichen Experten übernommen werden muss. Sie ist jedoch notwendig, um Bezüge zwischen Dokumenten herzustellen, Suchanfragen zu historischen Ereignissen korrekt zu beantworten oder semantische Verknüpfungen aufzubauen. Um den manuellen Aufwand dieser Aufgabe reduzieren zu können, sollen Verfahren der Named Entity Recognition angewendet werden. Die Klassifikation von Termen in historischenDie Extraktion von Metadaten aus historischen Dokumenten ist eine zeitintensive, komplexe und höchst fehleranfällige Tätigkeit, die üblicherweise vom menschlichen Experten übernommen werden muss. Sie ist jedoch notwendig, um Bezüge zwischen Dokumenten herzustellen, Suchanfragen zu historischen Ereignissen korrekt zu beantworten oder semantische Verknüpfungen aufzubauen. Um den manuellen Aufwand dieser Aufgabe reduzieren zu können, sollen Verfahren der Named Entity Recognition angewendet werden. Die Klassifikation von Termen in historischen Handschriften stellt jedoch eine große Herausforderung dar, da die Domäne eine hohe Schreibweisenvarianz durch unter anderem nur konventionell vereinbarte Orthographie mit sich bringt. Diese Arbeit stellt Verfahren vor, die auch in komplexen syntaktischen Umgebungen arbeiten können, indem sie auf Informationen aus dem Kontext der zu klassifizierenden Terme zurückgreifen und diese mit domänenspezifischen Heuristiken kombinieren. Weiterhin wird evaluiert, wie die so gewonnenen Metadaten genutzt werden können, um in Workflow-Systemen zur Digitalisierung historischer Handschriften Mehrwerte durch Heuristiken zur Produktionsfehlererkennung zu erzielen.zeige mehrzeige weniger
  • Performing Named Entity Recognition on ancient documents is a time-consuming, complex and error-prone manual task. It is a prerequisite though to being able to identify related documents and correlate between named entities in distinct sources, helping to precisely recreate historic events. In order to reduce the manual effort, automated classification approaches could be leveraged. Classifying terms in ancient documents in an automated manner poses a difficult task due to the sources’ challenging syntax and poor conservation states. ThisPerforming Named Entity Recognition on ancient documents is a time-consuming, complex and error-prone manual task. It is a prerequisite though to being able to identify related documents and correlate between named entities in distinct sources, helping to precisely recreate historic events. In order to reduce the manual effort, automated classification approaches could be leveraged. Classifying terms in ancient documents in an automated manner poses a difficult task due to the sources’ challenging syntax and poor conservation states. This thesis introduces and evaluates approaches that can cope with complex syntactial environments by using statistical information derived from a term’s context and combining it with domain-specific heuristic knowledge to perform a classification. Furthermore this thesis demonstrates how metadata generated by these approaches can be used as error heuristics to greatly improve the performance of workflow systems for digitizations of early documents.zeige mehrzeige weniger

Volltext Dateien herunterladen

Metadaten exportieren

Metadaten
Autor(en): Hendrik Schöneberg
URN:urn:nbn:de:bvb:20-opus-104878
Dokumentart:Dissertation
Titelverleihende Fakultät:Universität Würzburg, Fakultät für Mathematik und Informatik
Institute der Universität:Fakultät für Mathematik und Informatik / Institut für Informatik
Gutachter / Betreuer:Prof. Dr. Jürgen Albert, Prof. Dr. Frank Puppe
Datum der Abschlussprüfung:06.10.2014
Sprache der Veröffentlichung:Deutsch
Erscheinungsjahr:2014
Allgemeine fachliche Zuordnung (DDC-Klassifikation):0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 000 Informatik, Informationswissenschaft, allgemeine Werke
Normierte Schlagworte (GND):Klassifikation; Information Retrieval; Text Mining; Arbeitsablaufplanung; Data Mining
Freie Schlagwort(e):Digitalisierung; Monadische Komposition
digitization; monadic composition
Fachklassifikation Informatik (CCS):E. Data
Datum der Freischaltung:23.10.2014
Lizenz (Deutsch):License LogoCC BY-ND: Creative-Commons-Lizenz: Namensnennung, Keine Bearbeitung