TY  - THES
A1  - Schöneberg, Hendrik
T1  - Semiautomatische Metadaten-Extraktion und Qualitätsmanagement in Workflow-Systemen zur Digitalisierung historischer Dokumente
T1  - Semi-automated Metadata Extraction and Quality Management in Workflow Systems for Digitizations of Early Documents
N2  - Performing Named Entity Recognition on ancient documents is a time-consuming, complex and
error-prone manual task. It is a prerequisite though to being able to identify related documents and correlate between named entities in distinct sources, helping to precisely
recreate historic events. In order to reduce the manual effort, automated classification approaches could be leveraged. Classifying terms in ancient documents in an automated
manner poses a difficult task due to the sources’ challenging syntax and poor conservation states. This thesis introduces and evaluates approaches that can cope with complex syntactial environments by using statistical information derived from a term’s context and combining it with domain-specific heuristic knowledge to perform a classification. Furthermore this thesis demonstrates how metadata generated by these approaches can be used as error heuristics to greatly improve the performance of workflow systems for digitizations of early documents.
N2  - Die Extraktion von Metadaten aus historischen Dokumenten ist eine zeitintensive, komplexe und höchst fehleranfällige Tätigkeit, die üblicherweise vom menschlichen Experten übernommen werden muss. Sie ist jedoch notwendig, um Bezüge zwischen Dokumenten herzustellen, Suchanfragen zu historischen Ereignissen korrekt zu beantworten oder semantische Verknüpfungen aufzubauen. Um den manuellen Aufwand dieser Aufgabe reduzieren zu können, sollen Verfahren der Named Entity Recognition angewendet werden. Die Klassifikation von Termen in historischen Handschriften stellt jedoch eine große Herausforderung dar, da die Domäne eine hohe Schreibweisenvarianz durch unter anderem nur konventionell vereinbarte Orthographie mit sich bringt. Diese Arbeit stellt Verfahren vor, die auch in komplexen syntaktischen Umgebungen arbeiten können, indem sie auf Informationen aus dem Kontext der zu klassifizierenden Terme zurückgreifen und diese mit domänenspezifischen Heuristiken kombinieren. Weiterhin wird evaluiert, wie die so gewonnenen Metadaten genutzt werden können, um in Workflow-Systemen zur Digitalisierung historischer Handschriften Mehrwerte durch Heuristiken zur Produktionsfehlererkennung zu erzielen.
KW  - Klassifikation
KW  - Information Retrieval
KW  - Text Mining
KW  - Arbeitsablaufplanung
KW  - Data Mining
KW  - Monadische Komposition
KW  - monadic composition
KW  - Digitalisierung
KW  - digitization
Y1  - 2014
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-104878
ER  - 
TY  - THES
A1  - Höhn, Winfried
T1  - Mustererkennung in Frühdrucken
T1  - Pattern Perception in Early Printed Books
N2  - No abstract available
KW  - Mustererkennung
KW  - Frühdruck
KW  - pattern perception
KW  - early printed books
Y1  - 2006
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-30429
ER  - 
TY  - THES
A1  - Feineis, Markus
T1  - Wortgenaue Annotation digitalisierter mittelalterlicher Handschriften
T1  - One-to-one Annotation of Digitised Medieval Manuscripts
N2  - No abstract available
KW  - Annotation
KW  - Handschrift
KW  - Digitalisierung
Y1  - 2008
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-30448
ER  - 
TY  - THES
A1  - Vorbach, Paul
T1  - Analysen und Heuristiken zur Verbesserung von OCR-Ergebnissen bei Frakturtexten
T1  - Analyses and Heuristics for the Improvement of Optical Character Recognition Results for Fraktur Texts
N2  - Zahlreiche Digitalisierungsprojekte machen das Wissen vergangener Jahrhunderte jederzeit verfügbar. Das volle Potenzial der Digitalisierung von Dokumenten entfaltet sich jedoch erst, wenn diese als durchsuchbare Volltexte verfügbar gemacht werden. Mithilfe von OCR-Software kann die Erfassung weitestgehend automatisiert werden. Fraktur war ab dem 16. Jahrhundert bis zur Mitte des 20. Jahrhunderts die verbreitete Schrift des deutschen Sprachraums. Durch einige Besonderheiten von Fraktur bleiben die Erkennungsraten bei Frakturtexten aber meist deutlich hinter den Erkennungsergebnissen bei Antiquatexten zurück.
Diese Arbeit konzentriert sich auf die Verbesserung der Erkennungsergebnisse der OCR-Software Tesseract bei Frakturtexten. Dazu wurden die Software und bestehende Sprachpakete gesondert auf die Eigenschaften von Fraktur hin analysiert. Durch spezielles Training und Anpassungen an der Software wurde anschließend versucht, die Ergebnisse zu verbessern und Erkenntnisse über die Effektivität verschiedener Ansätze zu gewinnen.
Die Zeichenfehlerraten konnten durch verschiedene Experimente von zuvor 2,5 Prozent auf 1,85 Prozent gesenkt werden. Außerdem werden Werkzeuge vorgestellt, die das Training neuer Schriftarten für Tesseract erleichtern und eine Evaluation der erzielten Verbesserungen ermöglichen.
N2  - The knowledge of past centuries is made available by numerous digitization projects. However, the full potential of document digitization only unfolds when those are made available as searchable full texts. Capturing this data can be mostly automatized by using OCR software. Fraktur was the most common typeface between the 16th and 20th centuries. The special characteristics of Fraktur usually cause the recognition rates for these texts to be much worse than those for Antiqua texts.
This thesis concentrates on improving the recognition rates of the OCR software Tesseract for Fraktur texts. Therefore, the software as well as several language files has been analyzed regarding the special features of Fraktur. By training the software for Fraktur and by adjusting the software itself we tried to improve recognition results and to gain insights about the effectivity of different approaches.
During the course of this work, the character error rates were reduced from 2.5 percent to 1.85 percent. Additionally, tools are being presented, which simplify the process of training Tesseract and which allow the user to evaluate the improvements achieved.
KW  - Optische Zeichenerkennung
KW  - Klassifikation
KW  - Frakturschrift
KW  - OCR
KW  - Tesseract
Y1  - 2014
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-106527
ER  -