@phdthesis{Schoeneberg2014, author = {Sch{\"o}neberg, Hendrik}, title = {Semiautomatische Metadaten-Extraktion und Qualit{\"a}tsmanagement in Workflow-Systemen zur Digitalisierung historischer Dokumente}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-104878}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Performing Named Entity Recognition on ancient documents is a time-consuming, complex and error-prone manual task. It is a prerequisite though to being able to identify related documents and correlate between named entities in distinct sources, helping to precisely recreate historic events. In order to reduce the manual effort, automated classification approaches could be leveraged. Classifying terms in ancient documents in an automated manner poses a difficult task due to the sources' challenging syntax and poor conservation states. This thesis introduces and evaluates approaches that can cope with complex syntactial environments by using statistical information derived from a term's context and combining it with domain-specific heuristic knowledge to perform a classification. Furthermore this thesis demonstrates how metadata generated by these approaches can be used as error heuristics to greatly improve the performance of workflow systems for digitizations of early documents.}, subject = {Klassifikation}, language = {de} } @misc{Hoehn2006, type = {Master Thesis}, author = {H{\"o}hn, Winfried}, title = {Mustererkennung in Fr{\"u}hdrucken}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-30429}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2006}, abstract = {No abstract available}, subject = {Mustererkennung}, language = {de} } @misc{Feineis2008, type = {Master Thesis}, author = {Feineis, Markus}, title = {Wortgenaue Annotation digitalisierter mittelalterlicher Handschriften}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-30448}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2008}, abstract = {No abstract available}, subject = {Annotation}, language = {de} } @misc{Vorbach2014, type = {Master Thesis}, author = {Vorbach, Paul}, title = {Analysen und Heuristiken zur Verbesserung von OCR-Ergebnissen bei Frakturtexten}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-106527}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Zahlreiche Digitalisierungsprojekte machen das Wissen vergangener Jahrhunderte jederzeit verf{\"u}gbar. Das volle Potenzial der Digitalisierung von Dokumenten entfaltet sich jedoch erst, wenn diese als durchsuchbare Volltexte verf{\"u}gbar gemacht werden. Mithilfe von OCR-Software kann die Erfassung weitestgehend automatisiert werden. Fraktur war ab dem 16. Jahrhundert bis zur Mitte des 20. Jahrhunderts die verbreitete Schrift des deutschen Sprachraums. Durch einige Besonderheiten von Fraktur bleiben die Erkennungsraten bei Frakturtexten aber meist deutlich hinter den Erkennungsergebnissen bei Antiquatexten zur{\"u}ck. Diese Arbeit konzentriert sich auf die Verbesserung der Erkennungsergebnisse der OCR-Software Tesseract bei Frakturtexten. Dazu wurden die Software und bestehende Sprachpakete gesondert auf die Eigenschaften von Fraktur hin analysiert. Durch spezielles Training und Anpassungen an der Software wurde anschließend versucht, die Ergebnisse zu verbessern und Erkenntnisse {\"u}ber die Effektivit{\"a}t verschiedener Ans{\"a}tze zu gewinnen. Die Zeichenfehlerraten konnten durch verschiedene Experimente von zuvor 2,5 Prozent auf 1,85 Prozent gesenkt werden. Außerdem werden Werkzeuge vorgestellt, die das Training neuer Schriftarten f{\"u}r Tesseract erleichtern und eine Evaluation der erzielten Verbesserungen erm{\"o}glichen.}, subject = {Optische Zeichenerkennung}, language = {de} }