TY - THES A1 - Höhn, Winfried T1 - Mustererkennung in Frühdrucken T1 - Pattern Perception in Early Printed Books N2 - No abstract available KW - Mustererkennung KW - Frühdruck KW - pattern perception KW - early printed books Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-30429 ER - TY - THES A1 - Atzmüller, Martin T1 - Knowledge-Intensive Subgroup Mining - Techniques for Automatic and Interactive Discovery T1 - Wissensintensive Subgruppenentdeckung – Automatische und Interaktive Entdeckungsmethoden N2 - Data mining has proved its significance in various domains and applications. As an important subfield of the general data mining task, subgroup mining can be used, e.g., for marketing purposes in business domains, or for quality profiling and analysis in medical domains. The goal is to efficiently discover novel, potentially useful and ultimately interesting knowledge. However, in real-world situations these requirements often cannot be fulfilled, e.g., if the applied methods do not scale for large data sets, if too many results are presented to the user, or if many of the discovered patterns are already known to the user. This thesis proposes a combination of several techniques in order to cope with the sketched problems: We discuss automatic methods, including heuristic and exhaustive approaches, and especially present the novel SD-Map algorithm for exhaustive subgroup discovery that is fast and effective. For an interactive approach we describe techniques for subgroup introspection and analysis, and we present advanced visualization methods, e.g., the zoomtable that directly shows the most important parameters of a subgroup and that can be used for optimization and exploration. We also describe various visualizations for subgroup comparison and evaluation in order to support the user during these essential steps. Furthermore, we propose to include possibly available background knowledge that is easy to formalize into the mining process. We can utilize the knowledge in many ways: To focus the search process, to restrict the search space, and ultimately to increase the efficiency of the discovery method. We especially present background knowledge to be applied for filtering the elements of the problem domain, for constructing abstractions, for aggregating values of attributes, and for the post-processing of the discovered set of patterns. Finally, the techniques are combined into a knowledge-intensive process supporting both automatic and interactive methods for subgroup mining. The practical significance of the proposed approach strongly depends on the available tools. We introduce the VIKAMINE system as a highly-integrated environment for knowledge-intensive active subgroup mining. Also, we present an evaluation consisting of two parts: With respect to objective evaluation criteria, i.e., comparing the efficiency and the effectiveness of the subgroup discovery methods, we provide an experimental evaluation using generated data. For that task we present a novel data generator that allows a simple and intuitive specification of the data characteristics. The results of the experimental evaluation indicate that the novel SD-Map method outperforms the other described algorithms using data sets similar to the intended application concerning the efficiency, and also with respect to precision and recall for the heuristic methods. Subjective evaluation criteria include the user acceptance, the benefit of the approach, and the interestingness of the results. We present five case studies utilizing the presented techniques: The approach has been successfully implemented in medical and technical applications using real-world data sets. The method was very well accepted by the users that were able to discover novel, useful, and interesting knowledge. N2 - Data Mining wird mit großem Erfolg in vielen Domänen angewandt. Subgruppenentdeckung als wichtiges Teilgebiet des Data Mining kann zum Beispiel gut im Marketing, oder zur Qualitätskontrolle und Analyse in medizinischen Domänen eingesetzt werden. Das allgemeine Ziel besteht darin, potentiell nützliches and letztendlich interessantes Wissen zu entdecken. Jedoch können diese Anforderungen im praktischen Einsatz oft nicht erfüllt werden, etwa falls die eingesetzten Methoden eine schlechte Skalierbarkeit für größere Datensätze aufweisen, falls dem Benutzer zu viele Ergebnisse präsentiert werden, oder falls der Anwender viele der gefundenen Subgruppen-Muster schon kennt. Diese Arbeit stellt eine Kombination von automatischen und interaktiven Techniken vor, um mit den genannten Problemen besser umgehen zu können: Es werden automatische heuristische und vollständige Subgruppenentdeckungs-Verfahren diskutiert, und insbesondere der neuartige SD-Map Algorithmus zur vollständigen Subgruppenentdeckung vorgestellt der sowohl schnell als auch effektiv ist. Bezüglich der interaktiven Techniken werden Methoden zur Subgruppen-Introspektion und Analyse, und fortgeschrittene Visualisierungstechniken vorgestellt, beispielsweise die Zoomtable, die die für die Subgruppenentdeckung wichtigsten Parameter direkt visualisiert und zur Optimierung und Exploration eingesetzt werden kann. Zusätzlich werden verschiedene Visualisierungen zum Vergleich und zur Evaluation von Subgruppen beschrieben um den Benutzer bei diesen essentiellen Schritten zu unterstützen. Weiterhin wird leicht zu formalisierendes Hintergrundwissen vorgestellt, das im Subgruppenentdeckungsprozess in vielfältiger Weise eingesetzt werden kann: Um den Entdeckungsprozess zu fokussieren, den Suchraum einzuschränken, und letztendlich die Effizienz der Entdeckungsmethode zu erhöhen. Insbesondere wird Hintergrundwissen eingeführt, um die Elemente der Anwendungsdomäne zu filtern, um geeignete Abstraktionen zu definieren, Werte zusammenzufassen, und die gefundenen Subgruppenmuster nachzubearbeiten. Schließlich werden diese Techniken in einen wissensintensiven Prozess integriert, der sowohl automatische als auch interaktive Methoden zur Subgruppenentdeckung einschließt. Die praktische Bedeutung des vorgestellten Ansatzes hängt stark von den verfügbaren Werkzeugen ab. Dazu wird das VIKAMINE System als hochintegrierte Umgebung für die wissensintensive aktive Subgruppenentdeckung präsentiert. Die Evaluation des Ansatzes besteht aus zwei Teilen: Hinsichtlich einer Evaluation von Effizienz und Effektivität der Verfahren wird eine experimentelle Evaluation mit synthetischen Daten vorgestellt. Für diesen Zweck wird ein neuartiger in der Arbeit entwickelter Datengenerator angewandt, der eine einfache und intuitive Spezifikation der Datencharakteristiken erlaubt. Für die Evaluation des Ansatzes wurden Daten erzeugt, die ähnliche Charakteristiken aufweisen wie die Daten des angestrebten Einsatzbereichs. Die Ergebnisse der Evaluation zeigen, dass der neuartige SD-Map Algorithmus den anderen in der Arbeit beschriebenen Standard-Algorithmen überlegen ist. Sowohl hinsichtlich der Effizienz, als auch von Precision/Recall bezogen auf die heuristischen Algorithmen bietet SD-Map deutliche Vorteile. Subjektive Evaluationskriterien sind durch die Benutzerakzeptanz, den Nutzen des Ansatzes, und die Interessantheit der Ergebnisse gegeben. Es werden fünf Fallstudien für den Einsatz der vorgestellten Techniken beschrieben: Der Ansatz wurde in medizinischen und technischen Anwendungen mit realen Daten eingesetzt. Dabei wurde er von den Benutzern sehr gut angenommen, und im praktischen Einsatz konnte neuartiges, nützliches, und interessantes Wissen entdeckt werden. KW - Data Mining KW - Algorithmus KW - Visualisierung KW - Subgruppenentdeckung KW - Hintergrundwissen KW - Wissensendeckung KW - Data Mining KW - Visualisierung KW - Subgroup Mining KW - Background Knowledge KW - Knowledge Discovery KW - Data Mining KW - Visualization Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-21004 ER - TY - THES A1 - Binder, Andreas T1 - Die stochastische Wissenschaft und zwei Teilsysteme eines Web-basierten Informations- und Anwendungssystems zu ihrer Etablierung T1 - The stochastic science and two subsystems of a web-based information and application system for its establishment N2 - Das stochastische Denken, die Bernoullische Stochastik und dessen informationstechnologische Umsetzung, namens Stochastikon stellen die Grundlage für das Verständnis und die erfolgreiche Nutzung einer stochastischen Wissenschaft dar. Im Rahmen dieser Arbeit erfolgt eine Klärung des Begriffs des stochastischen Denkens, eine anschauliche Darstellung der von Elart von Collani entwickelten Bernoullischen Stochastik und eine Beschreibung von Stochastikon. Dabei werden sowohl das Gesamtkonzept von Stochastikon, sowie die Ziele, Aufgaben und die Realisierung der beiden Teilsysteme namens Mentor und Encyclopedia vorgestellt. Das stochastische Denken erlaubt eine realitätsnahe Sichtweise der Dinge, d.h. eine Sichtweise, die mit den menschlichen Beobachtungen und Erfahrungen im Einklang steht und somit die Unsicherheit über zukünftige Entwicklungen berücksichtigt. Der in diesem Kontext verwendete Begriff der Unsicherheit bezieht sich ausschließlich auf zukünftige Entwicklungen und äußert sich in Variabilität. Quellen der Unsicherheit sind einerseits die menschliche Ignoranz und andererseits der Zufall. Unter Ignoranz wird hierbei die Unwissenheit des Menschen über die unbekannten, aber feststehenden Fakten verstanden, die die Anfangsbedingungen der zukünftigen Entwicklung repräsentieren. Die Bernoullische Stochastik liefert ein Regelwerk und ermöglicht die Entwicklung eines quantitativen Modells zur Beschreibung der Unsicherheit und expliziter Einbeziehung der beiden Quellen Ignoranz und Zufall. Das Modell trägt den Namen Bernoulli-Raum und bildet die Grundlage für die Herleitung quantitativer Verfahren, um zuverlässige und genaue Aussagen sowohl über die nicht-existente zufällige Zukunft (Vorhersageverfahren), als auch über die unbekannte feststehende Vergangenheit (Messverfahren). Das Softwaresystem Stochastikon implementiert die Bernoullische Stochastik in Form einer Reihe autarker, miteinander kommunizierender Teilsysteme. Ziel des Teilsystems Encyclopedia ist die Bereitstellung und Bewertung stochastischen Wissens. Das Teilsystem Mentor dient der Unterstützung des Anwenders bei der Problemlösungsfindung durch Identifikation eines richtigen Modells bzw. eines korrekten Bernoulli-Raums. Der Lösungsfindungsprozess selber enthält keinerlei Unsicherheit. Die ganze Unsicherheit steckt in der Lösung, d.h. im Bernoulli-Raum, der explizit die vorhandene Unwissenheit (Ignoranz) und den vorliegenden Zufall abdeckend enthält. N2 - Stochastic thinking, Bernoulli stochastics and its information technological realization, called Stochastikon, represent the basis for understanding and successfully utilizing stochastic science. This thesis defines the concept of stochastic thinking, introduces Bernoulli stochastics, which has been developed by Elart von Collani, and describes the IT system Stochastikon. The concept and the design of Stochastikon are outlined and the aims, tasks and realizations of the two subsystems Mentor and Encyclopedia are given in detail. Stochastic thinking enables a realistic view of reality. This means a view, which is in agreement with observation and experience and, thus, takes into account uncertainty about future developments. In this context the term of uncertainty is used exclusively with respect to future development and materializes in variability. Sources of uncertainty are on the one hand human ignorance about fixed facts on the one hand and randomness on the other. Bernoulli stochastics makes available a set of rules for developing a quantitative model about uncertainty taking particularly into account the two sources ignorance and randomness. The model is called Bernoulli-Space, which is the basis for reliable and precise quantitative procedures for statements about the random future (prediction procedures) as well as about the unknown fixed past (measurement procedures). The software system, called Stochastikon, implements Bernoulli stochastics based on a set of self-sustained intercommunicating subsystems. The Subsystem Encyclopedia makes stochastical knowledge available, while the Subsystem Mentor supports the user for solving (stochastic) problems by identifying the correct model respectively correct Bernoulli-Space. The problem solving process is free of uncertainty, because all uncertainty is modelled by Bernoulli-space. KW - Stochastik KW - stochastisches Denken KW - Bernoullische Stochastik KW - Bernoulli-Raum KW - Stochastikon KW - stochastic thinking KW - Bernoulli stochastics KW - Bernoullispace KW - Stochastikon Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-26146 ER -