• Treffer 2 von 2
Zurück zur Trefferliste

Fehlertolerante Volltextsuche in elektronischen Enzyklopädien und Heuristiken zur Fehlerratenverbesserung

Fault-tolerant Fulltext-Search in Electronic Encylopedias and Heuristics for Error Rate Improvement

Zitieren Sie bitte immer diese URN: urn:nbn:de:bvb:20-opus-14760
  • In der vorliegenden Arbeit wird das Konzept und die praktische Umsetzung einer fehlertoleranten Volltextsuche vorgestellt, welche die unscharfe Recherche nach Suchmustern in umfangreichen, digitalen, enzyklopädischen Werken ermöglichen. Das dabei zur Anwendung kommende neue Verfahren, welches durch Gewichte gesteuert das ursprüngliche Benutzer-Suchmuster in seiner Gestalt verändert (Weighted Pattern Morphing, WPM) und anschließend mit einer nachgeschalteten exakten Volltextsuche sucht, konnte in zahlreichen kommerziellen Anwendungsfällen seineIn der vorliegenden Arbeit wird das Konzept und die praktische Umsetzung einer fehlertoleranten Volltextsuche vorgestellt, welche die unscharfe Recherche nach Suchmustern in umfangreichen, digitalen, enzyklopädischen Werken ermöglichen. Das dabei zur Anwendung kommende neue Verfahren, welches durch Gewichte gesteuert das ursprüngliche Benutzer-Suchmuster in seiner Gestalt verändert (Weighted Pattern Morphing, WPM) und anschließend mit einer nachgeschalteten exakten Volltextsuche sucht, konnte in zahlreichen kommerziellen Anwendungsfällen seine Praxistauglichkeit beweisen. Darunter ist die Anwendung zur unscharfen Suche in einer mittelalterlichen, handschriftlichen Chronik besonders interessant, da diese die frühneuhochdeutsche Sprache verwendet und es zur damaligen Zeit noch keine vereinheitlichte Rechtschreibung gab. Aber nicht nur bei der Endbenutzer-Suche kann WPM eingesetzt werden - auch im redaktionellen Umfeld konnten mit dem Verfahren noch mehrere hundert Tippfehler in einem bereits mehrfach lektorierten digitalen Lexikon gefunden werden. Dabei arbeitet das Verfahren deutlich schärfer, als die sonst zur unscharfen Suche (und damit zur Fehler-Suche) verwendete Edit-Distanz. Abschließend wird in der Arbeit noch ein Verfahren vorgestellt, mit dem aus einem 3D-Drahtgitter-Modell und den Faksimile-Scans einer mittelalterlichen Handschrift automatisch ein virtuelles Buch zum Durchblättern am PC erstellt wurde.zeige mehrzeige weniger
  • In the work reported here, we present a new way of performing fault-tolerant fulltext retrieval on large text corpora, such as scientific encyclopedias. The weighted pattern morphing (WPM) technique introduced in this paper overcomes disadvantages of both the popular edit distance measure and the Soundex code approaches, yet keeping their flexibility. This algorithm handles phonetic similarities; common typing errors such as omission or transposition of letters, and inconsistent usage of abbreviations and hyphenation. After showing how WPM canIn the work reported here, we present a new way of performing fault-tolerant fulltext retrieval on large text corpora, such as scientific encyclopedias. The weighted pattern morphing (WPM) technique introduced in this paper overcomes disadvantages of both the popular edit distance measure and the Soundex code approaches, yet keeping their flexibility. This algorithm handles phonetic similarities; common typing errors such as omission or transposition of letters, and inconsistent usage of abbreviations and hyphenation. After showing how WPM can be implemented efficiently, we present a novel method of how the weights of the internal penalty matrix can be automatically adjusted for even better results. Though the described technique can be applied without prior knowledge of actual user patterns, re-examination with a large number of online-user's patterns proves the portability of this fine-tuning approach. We further show how shifting the penalty matrix from one language to another can be accomplished. The described WPM technique is integrated into a large commercial pharmaceutic ency­clopedia CDROM, an online dermatological encyclopedia, and an online-reference encyclopedia of parasitology research, thus also proving its “road capability”. The thesis shows further the possibility to use WPM in the development phase of a digital encyclopedia to spot and correct typos and errors. A few hundred errors could be corrected in a text corpus that was reviewed several times before. Finally, the work presents an automatic approach in building a virtual book from a 3D-wireframe model and facsimile scans of a medieval handwriting. The user can flip pages back and forth in this virtual book, where the original version of the book is not accessible to the masses.zeige mehrzeige weniger

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste

Teilen auf Twitter Suche bei Google Scholar Statistik - Anzahl der Zugriffe auf das Dokument
Metadaten
Autor(en): Wolfram Eßer
URN:urn:nbn:de:bvb:20-opus-14760
Dokumentart:Dissertation
Titelverleihende Fakultät:Universität Würzburg, Fakultät für Mathematik und Informatik
Institute der Universität:Fakultät für Mathematik und Informatik / Institut für Informatik
Datum der Abschlussprüfung:07.07.2005
Sprache der Veröffentlichung:Deutsch
Erscheinungsjahr:2005
Allgemeine fachliche Zuordnung (DDC-Klassifikation):5 Naturwissenschaften und Mathematik / 51 Mathematik / 510 Mathematik
Normierte Schlagworte (GND):Volltextdatenbank; Fehlertoleranz; Fries; Lorenz; Würzburger Bischofschronik; Handschrift; Würzburg; Universitätsbibliothek; M.ch.f. 760; Volltext
Freie Schlagwort(e):Fehlerratenverbesserung; Fehlertoleranz; Volltextsuche; Weighted Pattern Morphing; elektronische Enzyklopädien
Electronic Encyclopedia; Error-Rate-Improvement; Fault-Tolerance; Fulltext-Search; Weighted Pattern Morphing
Fachklassifikation Informatik (CCS):I. Computing Methodologies / I.5 PATTERN RECOGNITION / I.5.4 Applications
Datum der Freischaltung:23.08.2005
Betreuer:Prof. Dr. Jürgen Albert