@misc{Vorbach2014, type = {Master Thesis}, author = {Vorbach, Paul}, title = {Analysen und Heuristiken zur Verbesserung von OCR-Ergebnissen bei Frakturtexten}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-106527}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Zahlreiche Digitalisierungsprojekte machen das Wissen vergangener Jahrhunderte jederzeit verf{\"u}gbar. Das volle Potenzial der Digitalisierung von Dokumenten entfaltet sich jedoch erst, wenn diese als durchsuchbare Volltexte verf{\"u}gbar gemacht werden. Mithilfe von OCR-Software kann die Erfassung weitestgehend automatisiert werden. Fraktur war ab dem 16. Jahrhundert bis zur Mitte des 20. Jahrhunderts die verbreitete Schrift des deutschen Sprachraums. Durch einige Besonderheiten von Fraktur bleiben die Erkennungsraten bei Frakturtexten aber meist deutlich hinter den Erkennungsergebnissen bei Antiquatexten zur{\"u}ck. Diese Arbeit konzentriert sich auf die Verbesserung der Erkennungsergebnisse der OCR-Software Tesseract bei Frakturtexten. Dazu wurden die Software und bestehende Sprachpakete gesondert auf die Eigenschaften von Fraktur hin analysiert. Durch spezielles Training und Anpassungen an der Software wurde anschließend versucht, die Ergebnisse zu verbessern und Erkenntnisse {\"u}ber die Effektivit{\"a}t verschiedener Ans{\"a}tze zu gewinnen. Die Zeichenfehlerraten konnten durch verschiedene Experimente von zuvor 2,5 Prozent auf 1,85 Prozent gesenkt werden. Außerdem werden Werkzeuge vorgestellt, die das Training neuer Schriftarten f{\"u}r Tesseract erleichtern und eine Evaluation der erzielten Verbesserungen erm{\"o}glichen.}, subject = {Optische Zeichenerkennung}, language = {de} }