@phdthesis{Grigorova2016, author = {Grigorova, Stanislava}, title = {Studien zur Digitalisierung von Campes ‚Verdeutschungsw{\"o}rterbuch'}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-133196}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2016}, abstract = {Diese Arbeit stellt ein ausf{\"u}hrliches Konzept f{\"u}r die Digitalisierung von Campes sogenannten ‚Verdeutschungsw{\"o}rterbuch'\(^1\) (1813). Campes Opus gilt als Schl{\"u}sselwerk f{\"u}r die Zeit um 1800 und ist deshalb sowohl von literaturhistorischem als auch von lexikographischem Interesse. Das Projekt umfasst die wichtigsten konzeptuellen und praktischen Schritte der Erstellung einer digitalen Edition. Untersucht wird der Kontext, in dem die Vorlage zu sehen ist, n{\"a}mlich Campes Arbeit an der Sprachreinigung und die Genese des ‚Verdeutschungsw{\"o}rterbuchs'. F{\"u}r die Texterfassung werden die M{\"o}glichkeiten aktueller Software f{\"u}r optische Zeichenerkennung (OCR, Optical Character Recognition) als m{\"o}gliche Alternative zur Praxis des manuellen Abschreibens von Frakturtexten gepr{\"u}ft. Im Kern des Projekts steht die tiefgehende Kodierung des elektronisch erfassten Textes nach den Richtlinien der ‚Text Encoding Initiative' (TEI), die die einzelnen lexikographischen Strukturen sichtbar und f{\"u}r weitere Bearbeitung zug{\"a}nglich macht. Es wird n{\"a}her auf jene Problemstellen eingegangen, die logische oder semantische Schwierigkeiten bei der Kodierung darstellen und an denen das TEI-W{\"o}rterbuch-Tagset den Anspr{\"u}chen eines W{\"o}rterbuchs aus dem 19. Jahrhundert m{\"o}glicherweise nicht vollst{\"a}ndig gen{\"u}gen kann und erweitert werden muss. Somit stellt das Projekt auch eine Fallstudie f{\"u}r die retrospektive Digitalisierung historischer Texte am Beispiel einer stark strukturierten Vorlage dar. Die Vorteile der großen Erschließungstiefe f{\"u}r weiterf{\"u}hrende Untersuchungen werden durch einen Vorschlag f{\"u}r die Pr{\"a}sentation der kodierten Daten und einige quantifizierende Abfragen dargelegt. Die vorgeschlagenen Arbeitsschritte werden parallel an einer repr{\"a}sentativen W{\"o}rterbuchstrecke praktisch angewandt. Angestrebt wird, dass der Leser den gesamten Prozess vom papiergebundenen Original bis hin zur Onlinepr{\"a}sentation verfolgen kann. \(^1\) ‚W{\"o}rterbuch zur Erkl{\"a}rung und Verdeutschung der unserer Sprache aufgedrungenen fremden Ausdr{\"u}cke. Ein Erg{\"a}nzungsband zu Adelungs und Campes W{\"o}rterb{\"u}chern. Neue starkvermehrte und durchg{\"a}ngig verbesserte Ausgabe von Joachim Heinrich Campe, Doktor der Gottesgelehrtheit.' Braunschweig, 1813.}, language = {de} } @misc{Vorbach2014, type = {Master Thesis}, author = {Vorbach, Paul}, title = {Analysen und Heuristiken zur Verbesserung von OCR-Ergebnissen bei Frakturtexten}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-106527}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Zahlreiche Digitalisierungsprojekte machen das Wissen vergangener Jahrhunderte jederzeit verf{\"u}gbar. Das volle Potenzial der Digitalisierung von Dokumenten entfaltet sich jedoch erst, wenn diese als durchsuchbare Volltexte verf{\"u}gbar gemacht werden. Mithilfe von OCR-Software kann die Erfassung weitestgehend automatisiert werden. Fraktur war ab dem 16. Jahrhundert bis zur Mitte des 20. Jahrhunderts die verbreitete Schrift des deutschen Sprachraums. Durch einige Besonderheiten von Fraktur bleiben die Erkennungsraten bei Frakturtexten aber meist deutlich hinter den Erkennungsergebnissen bei Antiquatexten zur{\"u}ck. Diese Arbeit konzentriert sich auf die Verbesserung der Erkennungsergebnisse der OCR-Software Tesseract bei Frakturtexten. Dazu wurden die Software und bestehende Sprachpakete gesondert auf die Eigenschaften von Fraktur hin analysiert. Durch spezielles Training und Anpassungen an der Software wurde anschließend versucht, die Ergebnisse zu verbessern und Erkenntnisse {\"u}ber die Effektivit{\"a}t verschiedener Ans{\"a}tze zu gewinnen. Die Zeichenfehlerraten konnten durch verschiedene Experimente von zuvor 2,5 Prozent auf 1,85 Prozent gesenkt werden. Außerdem werden Werkzeuge vorgestellt, die das Training neuer Schriftarten f{\"u}r Tesseract erleichtern und eine Evaluation der erzielten Verbesserungen erm{\"o}glichen.}, subject = {Optische Zeichenerkennung}, language = {de} }