TY - THES A1 - Eßer, Wolfram T1 - Fehlertolerante Volltextsuche in elektronischen Enzyklopädien und Heuristiken zur Fehlerratenverbesserung T1 - Fault-tolerant Fulltext-Search in Electronic Encylopedias and Heuristics for Error Rate Improvement N2 - In der vorliegenden Arbeit wird das Konzept und die praktische Umsetzung einer fehlertoleranten Volltextsuche vorgestellt, welche die unscharfe Recherche nach Suchmustern in umfangreichen, digitalen, enzyklopädischen Werken ermöglichen. Das dabei zur Anwendung kommende neue Verfahren, welches durch Gewichte gesteuert das ursprüngliche Benutzer-Suchmuster in seiner Gestalt verändert (Weighted Pattern Morphing, WPM) und anschließend mit einer nachgeschalteten exakten Volltextsuche sucht, konnte in zahlreichen kommerziellen Anwendungsfällen seine Praxistauglichkeit beweisen. Darunter ist die Anwendung zur unscharfen Suche in einer mittelalterlichen, handschriftlichen Chronik besonders interessant, da diese die frühneuhochdeutsche Sprache verwendet und es zur damaligen Zeit noch keine vereinheitlichte Rechtschreibung gab. Aber nicht nur bei der Endbenutzer-Suche kann WPM eingesetzt werden - auch im redaktionellen Umfeld konnten mit dem Verfahren noch mehrere hundert Tippfehler in einem bereits mehrfach lektorierten digitalen Lexikon gefunden werden. Dabei arbeitet das Verfahren deutlich schärfer, als die sonst zur unscharfen Suche (und damit zur Fehler-Suche) verwendete Edit-Distanz. Abschließend wird in der Arbeit noch ein Verfahren vorgestellt, mit dem aus einem 3D-Drahtgitter-Modell und den Faksimile-Scans einer mittelalterlichen Handschrift automatisch ein virtuelles Buch zum Durchblättern am PC erstellt wurde. N2 - In the work reported here, we present a new way of performing fault-tolerant fulltext retrieval on large text corpora, such as scientific encyclopedias. The weighted pattern morphing (WPM) technique introduced in this paper overcomes disadvantages of both the popular edit distance measure and the Soundex code approaches, yet keeping their flexibility. This algorithm handles phonetic similarities; common typing errors such as omission or transposition of letters, and inconsistent usage of abbreviations and hyphenation. After showing how WPM can be implemented efficiently, we present a novel method of how the weights of the internal penalty matrix can be automatically adjusted for even better results. Though the described technique can be applied without prior knowledge of actual user patterns, re-examination with a large number of online-user's patterns proves the portability of this fine-tuning approach. We further show how shifting the penalty matrix from one language to another can be accomplished. The described WPM technique is integrated into a large commercial pharmaceutic ency­clopedia CDROM, an online dermatological encyclopedia, and an online-reference encyclopedia of parasitology research, thus also proving its “road capability”. The thesis shows further the possibility to use WPM in the development phase of a digital encyclopedia to spot and correct typos and errors. A few hundred errors could be corrected in a text corpus that was reviewed several times before. Finally, the work presents an automatic approach in building a virtual book from a 3D-wireframe model and facsimile scans of a medieval handwriting. The user can flip pages back and forth in this virtual book, where the original version of the book is not accessible to the masses. KW - Volltextdatenbank KW - Fehlertoleranz KW - Fries KW - Lorenz KW - Würzburger Bischofschronik KW - Handschrift KW - Würzburg KW - Universitätsbibliothek KW - M.ch.f. 760 KW - Volltext KW - Fehlertoleranz KW - Volltextsuche KW - elektronische Enzyklopädien KW - Weighted Pattern Morphing KW - Fehlerratenverbesserung KW - Fault-Tolerance KW - Fulltext-Search KW - Electronic Encyclopedia KW - Weighted Pattern Morphing KW - Error-Rate-Improvement Y1 - 2005 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-14760 ER - TY - THES A1 - Selbach, Stefan T1 - Hybride bitparallele Volltextsuche T1 - Hybrid Bit-parallel Full-text Search N2 - Der große Vorteil eines q-Gramm Indexes liegt darin, dass es möglich ist beliebige Zeichenketten in einer Dokumentensammlung zu suchen. Ein Nachteil jedoch liegt darin, dass bei größer werdenden Datenmengen dieser Index dazu neigt, sehr groß zu werden, was mit einem deutlichem Leistungsabfall verbunden ist. In dieser Arbeit wird eine neuartige Technik vorgestellt, die die Leistung eines q-Gramm Indexes mithilfe zusätzlicher M-Matrizen für jedes q-Gramm und durch die Kombination mit einem invertierten Index erhöht. Eine M-Matrix ist eine Bit-Matrix, die Informationen über die Positionen eines q-Gramms enthält. Auch bei der Kombination von zwei oder mehreren Q-Grammen bieten diese M-Matrizen Informationen über die Positionen der Kombination. Dies kann verwendet werden, um die Komplexität der Zusammenführung der q-Gramm Trefferlisten für eine gegebene Suchanfrage zu reduzieren und verbessert die Leistung des n-Gramm-invertierten Index. Die Kombination mit einem termbasierten invertierten Index beschleunigt die durchschnittliche Suchzeit zusätzlich und vereint die Vorteile beider Index-Formate. Redundante Informationen werden in dem q-Gramm Index reduziert und weitere Funktionalität hinzugefügt, wie z.B. die Bewertung von Treffern nach Relevanz, die Möglichkeit, nach Konzepten zu suchen oder Indexpartitionierungen nach Wichtigkeit der enthaltenen Terme zu erstellen. N2 - The major advantage of the n-gram inverted index is the possibility to locate any given substring in a document collection. Nevertheless, the n-gram inverted index also has its drawbacks: If the collections are getting bigger, this index tends to be very large and the performance drops significantly. A novel technique is proposed to enhance the performance of an n-gram inverted index by using additional m-matrixes for each n-gram and by combining it with an inverted index. An m-matrix is a bit matrix containing information about the positions of an n-gram. When combining two or more n-grams, these m-matrixes provide information about the positions of the combination. This can be used to reduce the complexity of merging the n-gram postings lists for a given search and improves the performance of the n-gram inverted index. The combination with a term based inverted index speeds up the average search time even more and combines the benefits of both index formats. Redundant information is reduced in the n-gram index and further functionality is added like the ranking of hits, the possibility to search for concepts and to create index partitions according to the relevance of the contained terms. KW - Information Retrieval KW - Information-Retrieval-System KW - Suchverfahren KW - Invertierte Liste KW - n-Gramm KW - q-Gramm KW - Volltextsuche KW - Bit Parallelität KW - Konzeptsuche KW - q-gram KW - n-gram KW - bit-parallel KW - full-text search KW - concept search Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-66476 ER -