TY - THES A1 - Baumeister, Joachim T1 - Agile development of diagnostic knowledge systems T1 - Agile Entwicklung von Wissensbasierten Diagnosesystemen N2 - The success of diagnostic knowledge systems has been proved over the last decades. Nowadays, intelligent systems are embedded in machines within various domains or are used in interaction with a user for solving problems. However, although such systems have been applied very successfully the development of a knowledge system is still a critical issue. Similarly to projects dealing with customized software at a highly innovative level a precise specification often cannot be given in advance. Moreover, necessary requirements of the knowledge system can be defined not until the project has been started or are changing during the development phase. Many success factors depend on the feedback given by users, which can be provided if preliminary demonstrations of the system can be delivered as soon as possible, e.g., for interactive systems validation the duration of the system dialog. This thesis motivates that classical, document-centered approaches cannot be applied in such a setting. We cope with this problem by introducing an agile process model for developing diagnostic knowledge systems, mainly inspired by the ideas of the eXtreme Programming methodology known in software engineering. The main aim of the presented work is to simplify the engineering process for domain specialists formalizing the knowledge themselves. The engineering process is supported at a primary level by the introduction of knowledge containers, that define an organized view of knowledge contained in the system. Consequently, we provide structured procedures as a recommendation for filling these containers. The actual knowledge is acquired and formalized right from start, and the integration to runnable knowledge systems is done continuously in order to allow for an early and concrete feedback. In contrast to related prototyping approaches the validity and maintainability of the collected knowledge is ensured by appropriate test methods and restructuring techniques, respectively. Additionally, we propose learning methods to support the knowledge acquisition process sufficiently. The practical significance of the process model strongly depends on the available tools supporting the application of the process model. We present the system family d3web and especially the system d3web.KnowME as a highly integrated development environment for diagnostic knowledge systems. The process model and its activities, respectively, are evaluated in two real life applications: in a medical and in an environmental project the benefits of the agile development are clearly demonstrated. N2 - Wissensbasierte Diagnosesysteme konnten in den letzten Jahrzehnten sehr erfolgreich eingesetzt werden. Intelligente Systeme sind heute in den verschiedensten Domainen zu finden, werden in komplexe Maschinen eingebettet oder interaktiv im Dialog mit dem Benutzer verwendet. Trotz aller Erfolge ist die Entwicklung eines Wissenssystems immer noch eine komplexe Aufgabe. Dies ist darin begründet, dass ähnlich zu der Erstellung von Individual-Software mit einem hohen innovativen Grad eine präzise Spezifikation zu Anfand des Projekt häufig nicht gegeben werden kann. Vielmehr können notwendige Faktoren, welche den Erfolg des Systems maßgeblich bestimmen, nicht vor der Entwicklung identifiziert werden oder sind Änderungen während der Entwicklungsphase unterworfen. Viele Einflussfaktoren können hierbei nur in Rückkopplung mit dem Benutzer abgewogen werden, welches durch vorläufige Versionen des Systems in frühen Stadien ermöglicht werden kann, z.B. bei interaktiven Systemen durch eine Validierung des Dialoges durch den Benutzer. Diese Arbeit stellt heraus, dass klassische, dokument-zentrierte Ansätze in einem solchen Umfeld nicht anwendbar sind, und schlägt ein agiles Vorgehensmodell zur Entwicklung von wissensbasierten Diagnosesystemen als Lösung vor. Das agile Vorgehensmodell wurde wesentlich durch Ideen des im Software Engineering bekannten eXtreme Programming beeinflusst. Als wichtigstes Ziel dieser Arbeit wird die Vereinfachung des Entwicklungsprozesses für den Fachexperten verfolgt, der im Idealfall das benötigte Wissen selbst formalisiert. Dabei wird der Entwicklungsprozess auf einer übergeordneten Ebene durch die Einführung von Wissenscontainern unterstützt, welche eine organisierte Übersicht auf das im System enthaltene Wissen bieten. Weiterhin werden strukturierte Vorgehensweisen für das Füllen der jeweiligen Container empfohlen. Das tatsächliche Wissen wird von Beginn des Projekts an erfasst und formalisiert; eine kontinuierliche Integration von neuen Wissensinhalten in ein lauffähiges System sorgt für eine frühe und konkrete Rückkopplung mit dem Benutzer. Im Gegensatz zu den verwandten Prototyping Ansätzen wird die Validität und Wartbarkeit des erfassten Wissens durch geeignete Test- und Restrukturierungsmethoden sichergestellt. Zusätzlich werden angepasste Lernmethoden diskutiert, welche den Wissensakquisitionsprozess in vielen Bereichen ergänzen können. Die praktische Bedeutung des Vorgehensmodells ist stark mit der Verfügbarkeit von Werkzeugen verknüpft, welche den Fachexperten bei der Entwicklung direkt unterstützen können. Es wird daher die Systemfamilie d3web und im Speziellen die integrierte Entwicklungsumgebung d3web.KnowME vorgestellt. Das Vorgehensmodell und seine Aktivitäten werden in zwei Praxis-Anwendungen, einem medizinischen und einem geo-ökologischen Projekt, evaluiert. KW - Wissensakquisition KW - Wissensentwicklung KW - Wartung KW - Validation KW - Refaktorisierung KW - knowledge engineering KW - knowledge acquisition KW - maintenance KW - validation KW - refactoring Y1 - 2004 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-9698 ER - TY - THES A1 - Klügl, Peter T1 - Context-specific Consistencies in Information Extraction: Rule-based and Probabilistic Approaches T1 - Kontextspezifische Konsistenzen in der Informationsextraktion: Regelbasierte und Probabilistische Ansätze N2 - Large amounts of communication, documentation as well as knowledge and information are stored in textual documents. Most often, these texts like webpages, books, tweets or reports are only available in an unstructured representation since they are created and interpreted by humans. In order to take advantage of this huge amount of concealed information and to include it in analytic processes, it needs to be transformed into a structured representation. Information extraction considers exactly this task. It tries to identify well-defined entities and relations in unstructured data and especially in textual documents. Interesting entities are often consistently structured within a certain context, especially in semi-structured texts. However, their actual composition varies and is possibly inconsistent among different contexts. Information extraction models stay behind their potential and return inferior results if they do not consider these consistencies during processing. This work presents a selection of practical and novel approaches for exploiting these context-specific consistencies in information extraction tasks. The approaches direct their attention not only to one technique, but are based on handcrafted rules as well as probabilistic models. A new rule-based system called UIMA Ruta has been developed in order to provide optimal conditions for rule engineers. This system consists of a compact rule language with a high expressiveness and strong development support. Both elements facilitate rapid development of information extraction applications and improve the general engineering experience, which reduces the necessary efforts and costs when specifying rules. The advantages and applicability of UIMA Ruta for exploiting context-specific consistencies are illustrated in three case studies. They utilize different engineering approaches for including the consistencies in the information extraction task. Either the recall is increased by finding additional entities with similar composition, or the precision is improved by filtering inconsistent entities. Furthermore, another case study highlights how transformation-based approaches are able to correct preliminary entities using the knowledge about the occurring consistencies. The approaches of this work based on machine learning rely on Conditional Random Fields, popular probabilistic graphical models for sequence labeling. They take advantage of a consistency model, which is automatically induced during processing the document. The approach based on stacked graphical models utilizes the learnt descriptions as feature functions that have a static meaning for the model, but change their actual function for each document. The other two models extend the graph structure with additional factors dependent on the learnt model of consistency. They include feature functions for consistent and inconsistent entities as well as for additional positions that fulfill the consistencies. The presented approaches are evaluated in three real-world domains: segmentation of scientific references, template extraction in curricula vitae, and identification and categorization of sections in clinical discharge letters. They are able to achieve remarkable results and provide an error reduction of up to 30% compared to usually applied techniques. N2 - Diese Arbeit befasst sich mit regelbasierten und probabilistischen Ansätzen der Informationsextraktion, welche kontextspezifische Konsistenzen ausnutzen und somit die Extraktionsgenauigkeit verbessern. KW - Information Extraction KW - Maschinelles Lernen KW - knowledge engineering Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-108352 SN - 978-3-95826-018-4 (print) SN - 978-3-95826-019-1 (online) PB - Würzburg University Press CY - Würzburg ER -