TY  - THES
A1  - Zink, Johannes
T1  - Algorithms for Drawing Graphs and Polylines with Straight-Line Segments
T1  - Algorithmen zum Zeichnen von Graphen und Polygonzügen mittels Strecken
N2  - Graphs provide a key means to model relationships between entities.
They consist of vertices representing the entities,
and edges representing relationships between pairs of entities.
To make people conceive the structure of a graph,
it is almost inevitable to visualize the graph.
We call such a visualization a graph drawing.
Moreover, we have a straight-line graph drawing
if each vertex is represented as a point
(or a small geometric object, e.g., a rectangle)
and each edge is represented as a line segment between its two vertices.
A polyline is a very simple straight-line graph drawing,
where the vertices form a sequence according to which the vertices are connected by edges.
An example of a polyline in practice is a GPS trajectory.
The underlying road network, in turn, can be modeled as a graph.

This book addresses problems that arise
when working with straight-line graph drawings and polylines.
In particular, we study algorithms 
for recognizing certain graphs representable with line segments,
for generating straight-line graph drawings,
and for abstracting polylines.

In the first part, we first examine,
how and in which time we can decide
whether a given graph is a stick graph,
that is, whether its vertices can be represented as
vertical and horizontal line segments on a diagonal line,
which intersect if and only if there is an edge between them.
We then consider the visual complexity of graphs.
Specifically, we investigate, for certain classes of graphs,
how many line segments are necessary for any straight-line graph drawing,
and whether three (or more) different slopes of the line segments
are sufficient to draw all edges.
Last, we study the question,
how to assign (ordered) colors to the vertices of a graph
with both directed and undirected edges
such that no neighboring vertices get the same color
and colors are ascending along directed edges.
Here, the special property of the considered graph is
that the vertices can be represented as intervals
that overlap if and only if there is an edge between them.

The latter problem is motivated by an application
in automated drawing of cable plans with vertical and horizontal line segments,
which we cover in the second part.
We describe an algorithm that
gets the abstract description of a cable plan as input,
and generates a drawing that takes into account
the special properties of these cable plans,
like plugs and groups of wires.
We then experimentally evaluate the quality of the resulting drawings.

In the third part, we study the problem of abstracting (or simplifying)
a single polyline and a bundle of polylines.
In this problem, the objective is to remove as many vertices as possible from the given polyline(s)
while keeping each resulting polyline sufficiently similar to its original course
(according to a given similarity measure).
N2  - Graphen stellen ein wichtiges Mittel dar,
um Beziehungen zwischen Objekten zu modellieren.
Sie bestehen aus Knoten, die die Objekte repräsentieren,
und Kanten, die Beziehungen zwischen Paaren von Objekten abbilden.
Um Menschen die Struktur eines Graphen zu vermitteln,
ist es nahezu unumgänglich den Graphen zu visualisieren.
Eine solche Visualisierung nennen wir Graphzeichnung.
Eine Graphzeichnung ist geradlinig, wenn jeder Knoten als ein Punkt
(oder ein kleines geometrisches Objekt, z. B. ein Rechteck)
und jede Kante als eine Strecke zwischen ihren beiden Knoten dargestellt ist.
Eine sehr einfache geradlinige Graphzeichnung, bei der alle Knoten eine
Folge bilden, entlang der die Knoten durch Kanten verbunden sind,
nennen wir Polylinie.
Ein Beispiel für eine Polylinie in der Praxis ist eine GPS-Trajektorie.
Das zugrundeliegende Straßennetzwerk wiederum kann als Graph repräsentiert werden.

In diesem Buch befassen wir uns mit Fragen,
die sich bei der Arbeit mit geradlinigen Graphzeichnungen und Polylinien stellen.
Insbesondere untersuchen wir Algorithmen
zum Erkennen von bestimmten mit Strecken darstellbaren Graphen,
zum Generieren von geradlinigen Graphzeichnungen
und zum Abstrahieren von Polylinien.

Im ersten Teil schauen wir uns zunächst an,
wie und in welcher Zeit wir entscheiden können,
ob ein gegebener Graph ein Stickgraph ist,
das heißt, ob sich seine Knoten als
vertikale und horizontale Strecken auf einer diagonalen Geraden darstellen lassen,
die sich genau dann schneiden, wenn zwischen ihnen eine Kante liegt.
Anschließend betrachten wir die visuelle Komplexität von Graphen.
Konkret untersuchen wir für bestimmte Graphklassen,
wie viele Strecken für jede geradlinige Graphzeichnung notwendig sind,
und, ob drei (oder mehr) verschiedene Streckensteigungen
ausreichend sind, um alle Kanten zu zeichnen.
Zuletzt beschäftigen wir uns mit der Frage,
wie wir den Knoten eines Graphen mit gerichteten und ungerichteten Kanten
(geordnete) Farben zuweisen können,
sodass keine benachbarten Knoten dieselbe Farbe haben und Farben
entlang gerichteter Kanten aufsteigend sind.
Hierbei ist die spezielle Eigenschaft der betrachteten Graphen,
dass sich die Knoten als Intervalle darstellen lassen, die sich genau
dann überschneiden, wenn eine Kanten zwischen ihnen verläuft.

Das letztgenannte Problem ist motiviert von einer Anwendung
beim automatisierten Zeichnen von Kabelplänen mit vertikalen und horizontalen Streckenverläufen,
womit wir uns im zweiten Teil befassen.
Wir beschreiben einen Algorithmus,
welcher die abstrakte Beschreibung eines Kabelplans entgegennimmt
und daraus eine Zeichnung generiert,
welche die speziellen Eigenschaften dieser Kabelpläne,
wie Stecker und Gruppen von zusammengehörigen Drähten, berücksichtigt.
Anschließend evaluieren wir die Qualität der so erzeugten Zeichnungen experimentell.

Im dritten Teil befassen wir uns
mit dem Abstrahieren bzw. Vereinfachen einer einzelnen Polylinie
und eines Bündels von Polylinien.
Bei diesem Problem sollen aus einer oder mehreren gegebenen Polylinie(n)
so viele Knoten wie möglich entfernt werden, wobei
jede resultierende Polylinie ihrem ursprünglichen Verlauf
(nach einem gegeben Maß) hinreichend ähnlich bleiben muss.
KW  - Graphenzeichnen
KW  - Algorithmische Geometrie
KW  - Algorithmus
KW  - Algorithmik
KW  - Polygonzüge
KW  - graph drawing
KW  - complexity
KW  - algorithms
KW  - straight-line segments
KW  - polylines
KW  - graphs
KW  - Strecken
KW  - Graphen
Y1  - 2024
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-354756
ER  - 
TY  - THES
A1  - Löffler, Andre
T1  - Constrained Graph Layouts: Vertices on the Outer Face and on the Integer Grid
T1  - Graphzeichnen unter Nebenbedingungen: Knoten auf der Außenfacette und mit ganzzahligen Koordinaten
N2  - Constraining graph layouts - that is, restricting the placement of vertices and the routing of edges to obey certain constraints - is common practice in graph drawing. 
In this book, we discuss algorithmic results on two different restriction types: 
placing vertices on the outer face and on the integer grid. 
For the first type, we look into the outer k-planar and outer k-quasi-planar graphs, as well as giving a linear-time algorithm to recognize full and closed outer k-planar graphs Monadic Second-order Logic. 
For the second type, we consider the problem of transferring a given planar drawing onto the integer grid while perserving the original drawings topology;
we also generalize a variant of Cauchy's rigidity theorem for orthogonal polyhedra of genus 0 to those of arbitrary genus.
N2  - Das Einschränken von Zeichnungen von Graphen, sodass diese bestimmte Nebenbedingungen erfüllen - etwa solche, die das Platzieren von Knoten oder den Verlauf von Kanten beeinflussen - sind im Graphzeichnen allgegenwärtig.
In dieser Arbeit befassen wir uns mit algorithmischen Resultaten zu zwei speziellen Einschränkungen, nämlich dem Platzieren von Knoten entweder auf der Außenfacette oder auf ganzzahligen Koordinaten.
Für die erste Einschränkung untersuchen wir die außen k-planaren und außen k-quasi-planaren Graphen und geben einen auf monadische Prädikatenlogik zweiter Stufe basierenden Algorithmus an, der überprüft, ob ein Graph voll außen k-planar ist.
Für die zweite Einschränkung untersuchen wir das Problem, eine gegebene planare Zeichnung eines Graphen auf das ganzzahlige Koordinatengitter zu transportieren, ohne dabei die Topologie der Zeichnung zu verändern; außerdem generalisieren wir eine Variante von Cauchys Starrheitssatz für orthogonale Polyeder von Geschlecht 0 auf solche von beliebigem Geschlecht.
KW  - Graphenzeichnen
KW  - Komplexität
KW  - Algorithmus
KW  - Algorithmische Geometrie
KW  - Kombinatorik
KW  - Planare Graphen
KW  - Polyeder
KW  - Konvexe Zeichnungen
Y1  - 2021
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-215746
SN  - 978-3-95826-146-4
SN  - 978-3-95826-147-1
N1  - Parallel erschienen als Druckausgabe in Würzburg University Press, ISBN 978-3-95826-146-4, 32,90 EUR
PB  - Würzburg University Press
CY  - Würzburg
ET  - 1. Auflage
ER  - 
TY  - THES
A1  - Fleszar, Krzysztof
T1  - Network-Design Problems in Graphs and on the Plane
T1  - Netzwerk-Design-Probleme in Graphen und auf der Ebene
N2  - A network design problem defines an infinite set whose elements, called instances, describe relationships and network constraints. It asks for an algorithm that, given an instance of this set, designs a network that respects the given constraints and at the same time optimizes some given criterion.

In my thesis, I develop algorithms whose solutions are optimum or close to an optimum value within some guaranteed bound. I also examine the computational complexity of these problems. Problems from two vast areas are considered: graphs and the Euclidean plane.

In the Maximum Edge Disjoint Paths problem, we are given a graph and a subset of vertex pairs that are called terminal pairs. We are asked for a set of paths where the endpoints of each path form a terminal pair. The constraint is that any two paths share at most one inner vertex. The optimization criterion is to maximize the cardinality of the set.

In the hard-capacitated k-Facility Location problem, we are given an integer k and a complete graph where the distances obey a given metric and where each node has two numerical values: a capacity and an opening cost. We are asked for a subset of k nodes, called facilities, and an assignment of all the nodes, called clients, to the facilities. The constraint is that the number of clients assigned to a facility cannot exceed the facility's capacity value. The optimization criterion is to minimize the total cost which consists of the total opening cost of the facilities and the total distance between the clients and the facilities they are assigned to.

In the Stabbing problem, we are given a set of axis-aligned rectangles in the plane.  We are asked for a set of horizontal line segments such that, for every rectangle, there is a line segment crossing its left and right edge. The optimization criterion is to minimize the total length of the line segments.

In the k-Colored Non-Crossing Euclidean Steiner Forest problem, we are given an integer k and a finite set of points in the plane where each point has one of k colors. For every color, we are asked for a drawing that connects all the points of the same color. The constraint is that drawings of different colors are not allowed to cross each other. The optimization criterion is to minimize the total length of the drawings.

In the Minimum Rectilinear Polygon for Given Angle Sequence problem, we are given an angle sequence of left (+90°) turns and right (-90°) turns. We are asked for an axis-parallel simple polygon where the angles of the vertices yield the given sequence when walking around the polygon in counter-clockwise manner. The optimization criteria considered are to minimize the perimeter, the area, and the size of the axis-parallel bounding box of the polygon.
N2  - Ein Netzwerk-Design-Problem definiert eine unendliche Menge, deren Elemente, als Instanzen bezeichnet, Beziehungen und Beschränkungen in einem Netzwerk beschreiben. Die Lösung eines solchen Problems besteht aus einem Algorithmus, der auf die Eingabe einer beliebigen Instanz dieser Menge ein Netzwerk entwirft, welches die gegebenen Beschränkungen einhält und gleichzeitig ein gegebenes Kriterium optimiert.

In meiner Dissertation habe ich Algorithmen entwickelt, deren Netzwerke stets optimal sind oder nachweisbar nahe am Optimum liegen. Zusätzlich habe ich die Berechnungskomplexität dieser Probleme untersucht. Dabei wurden Probleme aus zwei weiten Gebieten betrachtet: Graphen und der Euklidische Ebene.

Im Maximum-Edge-Disjoint-Paths-Problem besteht die Eingabe aus einem Graphen und einer Teilmenge von Knotenpaaren, die wir mit Terminalpaare bezeichnen. Gesucht ist eine Menge von Pfaden, die Terminalpaare verbinden. Die Beschränkung ist, dass keine zwei Pfade einen gleichen inneren Knoten haben dürfen. Das Optimierungskriterium ist die Maximierung der Kardinalität dieser Menge.

Im Hard-Capacitated-k-Facility-Location-Problem besteht die Eingabe aus einer Ganzzahl k und einem vollständigen Graphen, in welchem die Distanzen einer gegebenen Metrik unterliegen und in welchem jedem Knoten sowohl eine numerische Kapazität als auch ein Eröffnungskostenwert zugeschrieben ist. Gesucht ist eine Teilmenge von k Knoten, Facilities genannt, und eine Zuweisung aller Knoten, Clients genannt, zu den Facilities. Die Beschränkung ist, dass die Anzahl der Clients, die einer Facility zugewiesen sind, nicht deren Kapazität überschreiten darf. Das Optimierungskriterium ist die Minimierung der Gesamtkosten bestehend aus den Gesamteröffnungskosten der Facilities sowie der Gesamtdistanz zwischen den Clients und den ihnen zugewiesenen Facilities.

Im Stabbing-Problem besteht die Eingabe aus einer Menge von achsenparallelen Rechtecken in der Ebene. Gesucht ist eine Menge von
horizontalen Geradenstücken mit der Randbedingung, dass die linke und rechte Seite eines jeden Rechtecks von einem Geradenstück verbunden ist. Das Optimierungskriterium ist die Minimierung der Gesamtlänge aller Geradenstücke.

Im k-Colored-Non-Crossing-Euclidean-Steiner-Forest-Problem besteht die Eingabe aus einer Ganzzahl k und einer endlichen Menge von Punkten in der Ebene, wobei jeder Punkt in einer von k Farben gefärbt ist. Gesucht ist für jede Farbe eine Zeichnung, in welcher alle Punkte der Farbe verbunden sind. Die Beschränkung ist, dass Zeichnungen verschiedener Farben sich nicht kreuzen dürfen. Das Optimierungskriterium ist die Minimierung des Gesamtintenverbrauchs, das heißt, der Gesamtlänge der Zeichnungen.

Im Minimum-Rectilinear-Polygon-for-Given-Angle-Sequence-Problem besteht die Eingabe aus einer Folge von Links- (+90°) und Rechtsabbiegungen (-90°). Gesucht ist ein achsenparalleles Polygon dessen Eckpunkte die gegebene Folge ergeben, wenn man das Polygon gegen den Uhrzeigersinn entlangläuft.
Die Optimierungskriterien sind die Minimierung des Umfangs und der inneren Fläche des Polygons sowie der Größe des notwendigen Zeichenblattes, d.h., des kleinsten Rechteckes, das das Polygon einschließt.
N2  - Given points in the plane, connect them using minimum ink. Though the task seems simple, it turns out to be very time consuming. In fact, scientists believe that computers cannot efficiently solve it. So, do we have to resign? This book examines such NP-hard network-design problems, from connectivity problems in graphs to polygonal drawing problems on the plane. First, we observe why it is so hard to optimally solve these problems. Then, we go over to attack them anyway. We develop fast algorithms that find approximate solutions that are very close to the optimal ones. Hence, connecting points with slightly more ink is not hard.
KW  - Euklidische Ebene
KW  - Algorithmus
KW  - Komplexität
KW  - NP-schweres Problem
KW  - Graph
KW  - approximation algorithm
KW  - hardness
KW  - optimization
KW  - graphs
KW  - network
KW  - Optimierungsproblem
KW  - Approximationsalgorithmus
KW  - complexity
KW  - Euclidean plane
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-154904
SN  - 978-3-95826-076-4 (Print)
SN  - 978-3-95826-077-1 (Online)
N1  - Parallel erschienen als Druckausgabe in Würzburg University Press, ISBN 978-3-95826-076-4, 28,90 EUR.
PB  - Würzburg University Press
CY  - Würzburg
ET  - 1. Auflage
ER  - 
TY  - THES
A1  - Hahn, Tim
T1  - Integrating neurobiological markers of depression: an fMRI-based pattern classification approach
T1  - Integration neurobiologischer Marker depressiver Erkrankungen mittels fMRT-basierter Musterklassifikation
N2  - While depressive disorders are, to date, diagnosed based on behavioral symptoms and course of illness, the interest in neurobiological markers of psychiatric disorders has grown substantially in recent years. However, current classification approaches are mainly based on data from a single biomarker, making it difficult to predict diseases such as depression which are characterized by a complex pattern of symptoms. Accordingly, none of the previously investigated single biomarkers has shown sufficient predictive power for practical application. In this work, we therefore propose an algorithm which integrates neuroimaging data associated with multiple, symptom-related neural processes relevant in depression to improve classification accuracy. First, we identified the core-symptoms of depression from standard classification systems. Then, we designed and conducted three experimental paradigms probing psychological processes known to be related to these symptoms using functional Magnetic Resonance Imaging. In order to integrate the resulting 12 high-dimensional biomarkers, we developed a multi-source pattern recognition algorithm based on a combination of Gaussian Process Classifiers and decision trees. Applying this approach to a group of 30 healthy controls and 30 depressive in-patients who were on a variety of medications and displayed varying degrees of symptom-severity allowed for high-accuracy single-subject classification. Specifically, integrating biomarkers yielded an accuracy of 83% while the best of the 12 single biomarkers alone classified a significantly lower number of subjects (72%) correctly. Thus, integrated biomarker-based classification of a heterogeneous, real-life sample resulted in accuracy comparable to the highest ever achieved in previous single biomarker research. Furthermore, investigation of the final prediction model revealed that neural activation during the processing of neutral facial expressions, large rewards, and safety cues is most relevant for over-all classification. We conclude that combining brain activation related to the core-symptoms of depression using the multi-source pattern classification approach developed in this work substantially increases classification accuracy while providing a sparse relational biomarker-model for future prediction.
N2  - Während depressive Erkrankungen bislang größtenteils auf der Basis von Symptomen auf der Verhaltensebene und den jeweiligen Krankheitsverläufen diagnostiziert werden, hat das Interesse an der Verwendung neurobiologischer Marker bei psychischen Erkrankungen in den letzten Jahren stark zugenommen. Da jedoch die momentan verfügbaren Klassifikationsansätze zumeist auf Informationen eines einzelnen Biomarkers beruhen, ist die Vorhersage von auf der Symptomebene so komplexen Erkrankungen wie Depressionen in der Praxis deutlich erschwert. Dementsprechend konnte keiner der einzelnen bisher untersuchten Biomarker eine Vorhersagegüte erreichen, die für die praktische Anwendung eines solchen Ansatzes im klinischen Alltag ausreichend wäre. Vor diesem Hintergrund schlagen wir deshalb zur Verbesserung der Klassifikationsgüte einen Algorithmus vor, der Messdaten vielfältiger depressionsrelevanter neuronaler Prozesse integriert. Zunächst wurden hierzu die Kernsymptome depressiver Erkrankungen aus standardisierten Klassifikationssystemen ermittelt. Anschließend entwickelten wir drei experimentelle Paradigmen, welche die Messung neuronaler Korrelate der mit den depressiven Kernsymptomen assoziierten psychologischen Prozesse mittels funktioneller Kernspintomographie ermöglichen. Um die resultierenden 12 hochdimensionalen Biomarker zu integrieren, entwickelten wir basierend auf der Kombination von Gauß-Prozess Klassifikatoren und Entscheidungsbäumen einen zweistufigen Mustererkennungsalgorithmus für multiple, hochdimensionale Datenquellen. Dieser Ansatz wurde an einer Gruppe von 30 gesunden Probanden und 30 unterschiedlich schwer betroffenen und unterschiedlich medizierten stationären depressiven Patienten evaluiert. Insgesamt ermöglicht der Ansatz eine hohe Klassifikationsgüte auf Einzelfallebene. Insbesondere die Integration der verschiedenen Biomarker führte zu einer Klassifikationsgüte von 83%, wohingegen die alleinige Klassifikationsgüte der 12 einzelnen Biomarker mit bestenfalls 72% deutlich geringer ausfiel. Somit konnte der entwickelte Klassifikationsansatz in einer heterogenen, im Alltag aber typisch anzutreffenden depressiven Patientenstichprobe, eine Klassifikationsgüte erreichen, die mit der bislang bestmöglichen durch einzelne Biomarker erreichten Klassifikationsgüte in selektiven Einzelstichproben vergleichbar ist. Darüber hinaus zeigte die Analyse des empirischen Prädiktionsmodells, dass die Kombination der neuronalen Aktivität während der Verarbeitung von neutralen Gesichtern, großen monetären Belohnungen und Sicherheitssignalen zur optimalen Gesamtklassifikation führt. Zusammenfassend lässt sich schlussfolgern, dass der im Rahmen dieser Arbeit entwickelte, zweistufige Mustererkennungsalgorithmus für multiple, hochdimensionale Datenquellen die Klassifikationsgüte substantiell verbessert und erstmals die Konstruktion eines effizienten relationalen Biomarker-Modells für zukünftige Vorhersagen ermöglicht.
KW  - Patientenklassifikation
KW  - Depression
KW  - Biomarker
KW  - Neurobiologie
KW  - Algorithmus
KW  - Gauss Prozess Klassifikation
KW  - Klassifikations- und Regressionsbaum
KW  - Systematik
KW  - Automatische Klassifikation
KW  - Magnetische Resonanz
KW  - Gaussian Process Classification
Y1  - 2010
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-49962
ER  - 
TY  - THES
A1  - Atzmüller, Martin
T1  - Knowledge-Intensive Subgroup Mining - Techniques for Automatic and Interactive Discovery
T1  - Wissensintensive Subgruppenentdeckung – Automatische und Interaktive Entdeckungsmethoden
N2  - Data mining has proved its significance in various domains and applications. As an important subfield of the general data mining task, subgroup mining can be used, e.g., for marketing purposes in business domains, or for quality profiling and analysis in medical domains. The goal is to efficiently discover novel, potentially useful and ultimately interesting knowledge. However, in real-world situations these requirements often cannot be fulfilled, e.g., if the applied methods do not scale for large data sets, if too many results are presented to the user, or if many of the discovered patterns are already known to the user. This thesis proposes a combination of several techniques in order to cope with the sketched problems: We discuss automatic methods, including heuristic and exhaustive approaches, and especially present the novel SD-Map algorithm for exhaustive subgroup discovery that is fast and effective. For an interactive approach we describe techniques for subgroup introspection and analysis, and we present advanced visualization methods, e.g., the zoomtable that directly shows the most important parameters of a subgroup and that can be used for optimization and exploration. We also describe various visualizations for subgroup comparison and evaluation in order to support the user during these essential steps. Furthermore, we propose to include possibly available background knowledge that is easy to formalize into the mining process. We can utilize the knowledge in many ways: To focus the search process, to restrict the search space, and ultimately to increase the efficiency of the discovery method. We especially present background knowledge to be applied for filtering the elements of the problem domain, for constructing abstractions, for aggregating values of attributes, and for the post-processing of the discovered set of patterns. Finally, the techniques are combined into a knowledge-intensive process supporting both automatic and interactive methods for subgroup mining. The practical significance of the proposed approach strongly depends on the available tools. We introduce the VIKAMINE system as a highly-integrated environment for knowledge-intensive active subgroup mining. Also, we present an evaluation consisting of two parts: With respect to objective evaluation criteria, i.e., comparing the efficiency and the effectiveness of the subgroup discovery methods, we provide an experimental evaluation using generated data. For that task we present a novel data generator that allows a simple and intuitive specification of the data characteristics. The results of the experimental evaluation indicate that the novel SD-Map method outperforms the other described algorithms using data sets similar to the intended application concerning the efficiency, and also with respect to precision and recall for the heuristic methods. Subjective evaluation criteria include the user acceptance, the benefit of the approach, and the interestingness of the results. We present five case studies utilizing the presented techniques: The approach has been successfully implemented in medical and technical applications using real-world data sets. The method was very well accepted by the users that were able to discover novel, useful, and interesting knowledge.
N2  - Data Mining wird mit großem Erfolg in vielen Domänen angewandt. Subgruppenentdeckung als wichtiges Teilgebiet des Data Mining kann zum Beispiel gut im Marketing, oder zur Qualitätskontrolle und Analyse in medizinischen Domänen eingesetzt werden. Das allgemeine Ziel besteht darin, potentiell nützliches and letztendlich interessantes Wissen zu entdecken. Jedoch können diese Anforderungen im praktischen Einsatz oft nicht erfüllt werden, etwa falls die eingesetzten Methoden eine schlechte Skalierbarkeit für größere Datensätze aufweisen, falls dem Benutzer zu viele Ergebnisse präsentiert werden, oder falls der Anwender viele der gefundenen Subgruppen-Muster schon kennt. Diese Arbeit stellt eine Kombination von automatischen und interaktiven Techniken vor, um mit den genannten Problemen besser umgehen zu können: Es werden automatische heuristische und vollständige Subgruppenentdeckungs-Verfahren diskutiert, und insbesondere der neuartige SD-Map Algorithmus zur vollständigen Subgruppenentdeckung vorgestellt der sowohl schnell als auch effektiv ist. Bezüglich der interaktiven Techniken werden Methoden zur Subgruppen-Introspektion und Analyse, und fortgeschrittene Visualisierungstechniken vorgestellt, beispielsweise die Zoomtable, die die für die Subgruppenentdeckung wichtigsten Parameter direkt visualisiert und zur Optimierung und Exploration eingesetzt werden kann. Zusätzlich werden verschiedene Visualisierungen zum Vergleich und zur Evaluation von Subgruppen beschrieben um den Benutzer bei diesen essentiellen Schritten zu unterstützen. Weiterhin wird leicht zu formalisierendes Hintergrundwissen vorgestellt, das im Subgruppenentdeckungsprozess in vielfältiger Weise eingesetzt werden kann: Um den Entdeckungsprozess zu fokussieren, den Suchraum einzuschränken, und letztendlich die Effizienz der Entdeckungsmethode zu erhöhen. Insbesondere wird Hintergrundwissen eingeführt, um die Elemente der Anwendungsdomäne zu filtern, um geeignete Abstraktionen zu definieren, Werte zusammenzufassen, und die gefundenen Subgruppenmuster nachzubearbeiten. Schließlich werden diese Techniken in einen wissensintensiven Prozess integriert, der sowohl automatische als auch interaktive Methoden zur Subgruppenentdeckung einschließt. Die praktische Bedeutung des vorgestellten Ansatzes hängt stark von den verfügbaren Werkzeugen ab. Dazu wird das VIKAMINE System als hochintegrierte Umgebung für die wissensintensive aktive Subgruppenentdeckung präsentiert. Die Evaluation des Ansatzes besteht aus zwei Teilen: Hinsichtlich einer Evaluation von Effizienz und Effektivität der Verfahren wird eine experimentelle Evaluation mit synthetischen Daten vorgestellt. Für diesen Zweck wird ein neuartiger in der Arbeit entwickelter Datengenerator angewandt, der eine einfache und intuitive Spezifikation der Datencharakteristiken erlaubt. Für die Evaluation des Ansatzes wurden Daten erzeugt, die ähnliche Charakteristiken aufweisen wie die Daten des angestrebten Einsatzbereichs. Die Ergebnisse der Evaluation zeigen, dass der neuartige SD-Map Algorithmus den anderen in der Arbeit beschriebenen Standard-Algorithmen überlegen ist. Sowohl hinsichtlich der Effizienz, als auch von Precision/Recall bezogen auf die heuristischen Algorithmen bietet SD-Map deutliche Vorteile. Subjektive Evaluationskriterien sind durch die Benutzerakzeptanz, den Nutzen des Ansatzes, und die Interessantheit der Ergebnisse gegeben. Es werden fünf Fallstudien für den Einsatz der vorgestellten Techniken beschrieben: Der Ansatz wurde in medizinischen und technischen Anwendungen mit realen Daten eingesetzt. Dabei wurde er von den Benutzern sehr gut angenommen, und im praktischen Einsatz konnte neuartiges, nützliches, und interessantes Wissen entdeckt werden.
KW  - Data Mining
KW  - Algorithmus
KW  - Visualisierung
KW  - Subgruppenentdeckung
KW  - Hintergrundwissen
KW  - Wissensendeckung
KW  - Data Mining
KW  - Visualisierung
KW  - Subgroup Mining
KW  - Background Knowledge
KW  - Knowledge Discovery
KW  - Data Mining
KW  - Visualization
Y1  - 2006
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-21004
ER  -