TY - THES A1 - Grigorova, Stanislava T1 - Studien zur Digitalisierung von Campes ‚Verdeutschungswörterbuch‘ T1 - Studies for digitisation of the ,Verdeutschungswörterbuch' by J. H. Campe N2 - Diese Arbeit stellt ein ausführliches Konzept für die Digitalisierung von Campes sogenannten ‚Verdeutschungswörterbuch‘\(^1\) (1813). Campes Opus gilt als Schlüsselwerk für die Zeit um 1800 und ist deshalb sowohl von literaturhistorischem als auch von lexikographischem Interesse. Das Projekt umfasst die wichtigsten konzeptuellen und praktischen Schritte der Erstellung einer digitalen Edition. Untersucht wird der Kontext, in dem die Vorlage zu sehen ist, nämlich Campes Arbeit an der Sprachreinigung und die Genese des ‚Verdeutschungswörterbuchs‘. Für die Texterfassung werden die Möglichkeiten aktueller Software für optische Zeichenerkennung (OCR, Optical Character Recognition) als mögliche Alternative zur Praxis des manuellen Abschreibens von Frakturtexten geprüft. Im Kern des Projekts steht die tiefgehende Kodierung des elektronisch erfassten Textes nach den Richtlinien der ‚Text Encoding Initiative‘ (TEI), die die einzelnen lexikographischen Strukturen sichtbar und für weitere Bearbeitung zugänglich macht. Es wird näher auf jene Problemstellen eingegangen, die logische oder semantische Schwierigkeiten bei der Kodierung darstellen und an denen das TEI-Wörterbuch-Tagset den Ansprüchen eines Wörterbuchs aus dem 19. Jahrhundert möglicherweise nicht vollständig genügen kann und erweitert werden muss. Somit stellt das Projekt auch eine Fallstudie für die retrospektive Digitalisierung historischer Texte am Beispiel einer stark strukturierten Vorlage dar. Die Vorteile der großen Erschließungstiefe für weiterführende Untersuchungen werden durch einen Vorschlag für die Präsentation der kodierten Daten und einige quantifizierende Abfragen dargelegt. Die vorgeschlagenen Arbeitsschritte werden parallel an einer repräsentativen Wörterbuchstrecke praktisch angewandt. Angestrebt wird, dass der Leser den gesamten Prozess vom papiergebundenen Original bis hin zur Onlinepräsentation verfolgen kann. \(^1\) ‚Wörterbuch zur Erklärung und Verdeutschung der unserer Sprache aufgedrungenen fremden Ausdrücke. Ein Ergänzungsband zu Adelungs und Campes Wörterbüchern. Neue starkvermehrte und durchgängig verbesserte Ausgabe von Joachim Heinrich Campe, Doktor der Gottesgelehrtheit.‘ Braunschweig, 1813. N2 - Campe's "Wörterbuch zur Erklärung und Verdeutschung der unserer Sprache aufgedrungenen fremden Ausdrücke" ("Dictionary for explaining and translating into German those foreign expressions which have forced their way into our language"), published in 1813, is considered a key piece for this period and is of interest for both lexicographers and literary-historians. This dissertation presents a comprehensive concept for the digitisation of the dictionary, and comprises the most important conceptual and practical steps in the creation of a digital edition. It gives an overview of the context surrounding the creation of the dictionary and Campe's writings on linguistic purism. The suitability of optical character recognition software for capturing the Gothic font text is tested and is found inferior to the manual transcription. The core of the work explores in detail the encoding of the dictionary structures based on the Text Encoding Initiative (TEI) guidelines that render each lexicographical structure visible and allow for further processing. A closer look is taken at areas that pose logical or semantic difficulties for encoding and where the TEI dictionary tag set does not fully meet the challenges of a 19th century dictionary and needs to be expanded. The advantages of this very detailed encoding for further linguistic studies are demonstrated by a series of quantified queries and by a proposal for the presentation of the encoded data. The work shows the entire digitisation process from the paper original to the online presentation. The encoding concept is tested by applying it to a representative sample of the dictionary and is proved to be robust for the encoding of the entire book. The dissertation can also be seen as a case study of digitisation of highly structured historical texts. KW - Retrodigitalisierung KW - Lexikographie KW - TEI-Kodierung KW - TEI (Text Encoding Initiative) KW - Verdeutschingswörterbuch KW - Optische Zeichenerkennung KW - Digitalisierung KW - Codierung KW - Text Encoding Initiative KW - Lexikographie KW - Optische Zeichenerkennung Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-133196 ER - TY - THES A1 - Reul, Christian T1 - An Intelligent Semi-Automatic Workflow for Optical Character Recognition of Historical Printings T1 - Ein intelligenter semi-automatischer Workflow für die OCR historischer Drucke N2 - Optical Character Recognition (OCR) on historical printings is a challenging task mainly due to the complexity of the layout and the highly variant typography. Nevertheless, in the last few years great progress has been made in the area of historical OCR resulting in several powerful open-source tools for preprocessing, layout analysis and segmentation, Automatic Text Recognition (ATR) and postcorrection. Their major drawback is that they only offer limited applicability by non-technical users like humanist scholars, in particular when it comes to the combined use of several tools in a workflow. Furthermore, depending on the material, these tools are usually not able to fully automatically achieve sufficiently low error rates, let alone perfect results, creating a demand for an interactive postcorrection functionality which, however, is generally not incorporated. This thesis addresses these issues by presenting an open-source OCR software called OCR4all which combines state-of-the-art OCR components and continuous model training into a comprehensive workflow. While a variety of materials can already be processed fully automatically, books with more complex layouts require manual intervention by the users. This is mostly due to the fact that the required Ground Truth (GT) for training stronger mixed models (for segmentation as well as text recognition) is not available, yet, neither in the desired quantity nor quality. To deal with this issue in the short run, OCR4all offers better recognition capabilities in combination with a very comfortable Graphical User Interface (GUI) that allows error corrections not only in the final output, but already in early stages to minimize error propagation. In the long run this constant manual correction produces large quantities of valuable, high quality training material which can be used to improve fully automatic approaches. Further on, extensive configuration capabilities are provided to set the degree of automation of the workflow and to make adaptations to the carefully selected default parameters for specific printings, if necessary. The architecture of OCR4all allows for an easy integration (or substitution) of newly developed tools for its main components by supporting standardized interfaces like PageXML, thus aiming at continual higher automation for historical printings. In addition to OCR4all, several methodical extensions in the form of accuracy improving techniques for training and recognition are presented. Most notably an effective, sophisticated, and adaptable voting methodology using a single ATR engine, a pretraining procedure, and an Active Learning (AL) component are proposed. Experiments showed that combining pretraining and voting significantly improves the effectiveness of book-specific training, reducing the obtained Character Error Rates (CERs) by more than 50%. The proposed extensions were further evaluated during two real world case studies: First, the voting and pretraining techniques are transferred to the task of constructing so-called mixed models which are trained on a variety of different fonts. This was done by using 19th century Fraktur script as an example, resulting in a considerable improvement over a variety of existing open-source and commercial engines and models. Second, the extension from ATR on raw text to the adjacent topic of typography recognition was successfully addressed by thoroughly indexing a historical lexicon that heavily relies on different font types in order to encode its complex semantic structure. During the main experiments on very complex early printed books even users with minimal or no experience were able to not only comfortably deal with the challenges presented by the complex layout, but also to recognize the text with manageable effort and great quality, achieving excellent CERs below 0.5%. Furthermore, the fully automated application on 19th century novels showed that OCR4all (average CER of 0.85%) can considerably outperform the commercial state-of-the-art tool ABBYY Finereader (5.3%) on moderate layouts if suitably pretrained mixed ATR models are available. N2 - Die Optische Zeichenerkennung (Optical Character Recognition, OCR) auf historischen Drucken stellt nach wie vor eine große Herausforderung dar, hauptsächlich aufgrund des häufig komplexen Layouts und der hoch varianten Typographie. In den letzten Jahre gab es große Fortschritte im Bereich der historischen OCR, die nicht selten auch in Form von Open Source Tools interessierten Nutzenden frei zur Verfügung stehen. Der Nachteil dieser Tools ist, dass sie meist ausschließlich über die Kommandozeile bedient werden können und somit nicht-technische Nutzer schnell überfordern. Außerdem sind die Tools häufig nicht aufeinander abgestimmt und verfügen dementsprechend nicht über gemeinsame Schnittstellen. Diese Arbeit adressiert diese Problematik mittels des Open Source Tools OCR4all, das verschiedene State-of-the-Art OCR Lösungen zu einem zusammenhängenden Workflow kombiniert und in einer einzigen Anwendung kapselt. Besonderer Wert liegt dabei darauf, auch nicht-technischen Nutzern zu erlauben, selbst die ältesten und anspruchsvollen Drucke selbstständig und mit höchster Qualität zu erfassen. OCR4all ist vollständig über eine komfortable graphische Nutzeroberfläche bedienbar und bietet umfangreiche Möglichkeiten hinsichtlich Konfiguration und interaktiver Nachkorrektur. Zusätzlich zu OCR4all werden mehrere methodische Erweiterungen präsentiert, um die Effektivität und Effizienz der Trainings- und Erkennungsprozesse zur Texterkennung zu optimieren. Während umfangreicher Evaluationen konnte gezeigt werden, dass selbst Nutzer ohne nennenswerte Vorerfahrung in der Lage waren, OCR4all eigenständig auf komplexe historische Drucke anzuwenden und dort hervorragende Zeichenfehlerraten von durchschnittlich unter 0,5% zu erzielen. Die methodischen Verbesserungen mit Blick auf die Texterkennung reduzierten dabei die Fehlerrate um über 50% im Vergleich zum etablierten Standardansatz. KW - Optische Zeichenerkennung KW - Optical Character Recognition KW - Document Analysis KW - Historical Printings KW - Alter Druck Y1 - 2020 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-209239 ER - TY - THES A1 - Vorbach, Paul T1 - Analysen und Heuristiken zur Verbesserung von OCR-Ergebnissen bei Frakturtexten T1 - Analyses and Heuristics for the Improvement of Optical Character Recognition Results for Fraktur Texts N2 - Zahlreiche Digitalisierungsprojekte machen das Wissen vergangener Jahrhunderte jederzeit verfügbar. Das volle Potenzial der Digitalisierung von Dokumenten entfaltet sich jedoch erst, wenn diese als durchsuchbare Volltexte verfügbar gemacht werden. Mithilfe von OCR-Software kann die Erfassung weitestgehend automatisiert werden. Fraktur war ab dem 16. Jahrhundert bis zur Mitte des 20. Jahrhunderts die verbreitete Schrift des deutschen Sprachraums. Durch einige Besonderheiten von Fraktur bleiben die Erkennungsraten bei Frakturtexten aber meist deutlich hinter den Erkennungsergebnissen bei Antiquatexten zurück. Diese Arbeit konzentriert sich auf die Verbesserung der Erkennungsergebnisse der OCR-Software Tesseract bei Frakturtexten. Dazu wurden die Software und bestehende Sprachpakete gesondert auf die Eigenschaften von Fraktur hin analysiert. Durch spezielles Training und Anpassungen an der Software wurde anschließend versucht, die Ergebnisse zu verbessern und Erkenntnisse über die Effektivität verschiedener Ansätze zu gewinnen. Die Zeichenfehlerraten konnten durch verschiedene Experimente von zuvor 2,5 Prozent auf 1,85 Prozent gesenkt werden. Außerdem werden Werkzeuge vorgestellt, die das Training neuer Schriftarten für Tesseract erleichtern und eine Evaluation der erzielten Verbesserungen ermöglichen. N2 - The knowledge of past centuries is made available by numerous digitization projects. However, the full potential of document digitization only unfolds when those are made available as searchable full texts. Capturing this data can be mostly automatized by using OCR software. Fraktur was the most common typeface between the 16th and 20th centuries. The special characteristics of Fraktur usually cause the recognition rates for these texts to be much worse than those for Antiqua texts. This thesis concentrates on improving the recognition rates of the OCR software Tesseract for Fraktur texts. Therefore, the software as well as several language files has been analyzed regarding the special features of Fraktur. By training the software for Fraktur and by adjusting the software itself we tried to improve recognition results and to gain insights about the effectivity of different approaches. During the course of this work, the character error rates were reduced from 2.5 percent to 1.85 percent. Additionally, tools are being presented, which simplify the process of training Tesseract and which allow the user to evaluate the improvements achieved. KW - Optische Zeichenerkennung KW - Klassifikation KW - Frakturschrift KW - OCR KW - Tesseract Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-106527 ER -