Refine
Has Fulltext
- yes (4)
Is part of the Bibliography
- yes (4)
Document Type
- Master Thesis (4) (remove)
Language
- German (4) (remove)
Keywords
- Annotation (1)
- Business Intelligence (1)
- Data Mining (1)
- Digitalisierung (1)
- Endnutzer (1)
- Entscheidungsträger (1)
- Fallstudie (1)
- Frakturschrift (1)
- Frühdruck (1)
- Handschrift (1)
Institute
- Institut für Informatik (4) (remove)
Zahlreiche Digitalisierungsprojekte machen das Wissen vergangener Jahrhunderte jederzeit verfügbar. Das volle Potenzial der Digitalisierung von Dokumenten entfaltet sich jedoch erst, wenn diese als durchsuchbare Volltexte verfügbar gemacht werden. Mithilfe von OCR-Software kann die Erfassung weitestgehend automatisiert werden. Fraktur war ab dem 16. Jahrhundert bis zur Mitte des 20. Jahrhunderts die verbreitete Schrift des deutschen Sprachraums. Durch einige Besonderheiten von Fraktur bleiben die Erkennungsraten bei Frakturtexten aber meist deutlich hinter den Erkennungsergebnissen bei Antiquatexten zurück.
Diese Arbeit konzentriert sich auf die Verbesserung der Erkennungsergebnisse der OCR-Software Tesseract bei Frakturtexten. Dazu wurden die Software und bestehende Sprachpakete gesondert auf die Eigenschaften von Fraktur hin analysiert. Durch spezielles Training und Anpassungen an der Software wurde anschließend versucht, die Ergebnisse zu verbessern und Erkenntnisse über die Effektivität verschiedener Ansätze zu gewinnen.
Die Zeichenfehlerraten konnten durch verschiedene Experimente von zuvor 2,5 Prozent auf 1,85 Prozent gesenkt werden. Außerdem werden Werkzeuge vorgestellt, die das Training neuer Schriftarten für Tesseract erleichtern und eine Evaluation der erzielten Verbesserungen ermöglichen.
Das Potenzial der Wissensentdeckung in Daten wird häufig nicht ausgenutzt, was hauptsächlich auf Barrieren zwischen dem Entwicklerteam und dem Endnutzer des Data-Mining zurückzuführen ist. In dieser Arbeit wird ein transparenter Ansatz zum Beschreiben und Erklären von Daten für Entscheidungsträger vorgestellt. In Entscheidungsträger-zentrierten Aufgaben werden die Projektanforderungen definiert und die Ergebnisse zu einer Geschichte zusammengestellt. Eine Anforderung besteht dabei aus einem tabellarischen Bericht und ggf. Mustern in seinem Inhalt, jeweils verständlich für einen Entscheidungsträger. Die technischen Aufgaben bestehen aus einer Datenprüfung, der Integration der Daten in einem Data-Warehouse sowie dem Generieren von Berichten und dem Entdecken von Mustern wie in den Anforderungen beschrieben. Mehrere Data-Mining-Projekte können durch Wissensmanagement sowie eine geeignete Infrastruktur voneinander profitieren. Der Ansatz wurde in zwei Projekten unter Verwendung von ausschließlich Open-Source-Software angewendet.
No abstract available
No abstract available