Refine
Has Fulltext
- yes (3)
Is part of the Bibliography
- yes (3)
Year of publication
- 2014 (3) (remove)
Document Type
- Doctoral Thesis (3)
Keywords
- Data Mining (3) (remove)
Institute
Die Grundlage für eine hohe Bestandsgenauigkeit ist die unternehmensübergreifende Identifikation und Nachverfolgung von Waren, die mit automatisierten Identifizierungstechnologien (Auto-ID-Technologien) ermöglicht wird. Die Einführung der Auto-ID-Technologie des Barcodes hat die Industrie vor mehr als 30 Jahren fundamental verändert. Darauf aufbauend versprechen neuere Auto-ID-Technologien wie die „Radio Frequency Identification“ (RFID) Probleme wie die Nichtverfügbarkeit von Waren, eine intransparente Diebstahlrate oder Warenschwund durch eine bessere Nachverfolgung aller Waren und eine höhere Bestandsgenauigkeit zu lösen. Die Vorteile von RFID gegenüber dem Barcode sind unter anderem die höhere Datendichte, die größere Robustheit gegenüber Umwelteinflüssen sowie die schnellere und mehrfache Erfassung von Gegenständen.
Viele Unternehmen sehen sich jedoch vor allem nach der Implementierung einer RFID-Infrastruktur mit einer Vielzahl von Problemen konfrontiert. Aspekte wie wenig Unterstützung durch das Management, interner Widerstand durch Mitarbeiter, Probleme bei der Integration von Hardware und Software und vor allem eine mangelnde Datenqualität verhindern, dass die prognostizierten positiven Effekte erreicht werden können. Derartige Phänomene werden passend unter dem Begriff „Credibility Gap“ zusammengefasst. Dieser beschreibt die Problematik, dass es insgesamt an Verfahren, Methoden und gezielter Unterstützung mangelt, um die in der Literatur umfangreich versprochenen positiven Effekte tatsächlich und nachhaltig zu realisieren. Passend werden die erwarteten Einsparungen und Verbesserungen durch den RFID-Einsatz oftmals als Expertenschätzungen und sogar als größtenteils rein spekulativ bezeichnet.
Das Ziel dieser Dissertation ist es, Praktikern das Erreichen der positiven RFID-Effekte zu ermöglichen. Hierzu wurden vielfältige Untersuchungen auf Basis einer langfristigen Kooperation mit einem der weltweit größten Bekleidungshändler durchgeführt, indem ein RFID-Implementierungsprojekt begleitet und intensiv mitgestaltet wurde. Zunächst wird bestätigt, dass die prognostizierten Vorteile der RFID-Technologie tatsächlich nicht allein durch die Implementierung der benötigten Infrastruktur erreicht werden können. Als Grund werden hohe Bestandsungenauigkeiten der verwendeten Bestandssysteme identifiziert, die sowohl auf technische als auch auf menschlich verursachte Fehler zurückzuführen sind. Als Folge ist die RFID-Datenqualität nicht verlässlich.
Die Dissertation setzt an den Problemen des Credibility Gap an und diagnostiziert bei einer bereits implementierten RFID-Infrastruktur zunächst die Fehler und Ursachen der mangelnden Datenqualität. Darauf aufbauend werden Maßnahmen und Handlungsanweisungen vorgestellt, mit deren Hilfe die Fehler behoben und die Infrastruktur schließlich verbessert und überwacht werden kann.
Um insgesamt die Anforderungen der Praxis und der Wissenschaft erfolgreich miteinander zu verknüpfen, wird als Forschungsmethode eine neuartige Kombination zweier Ausprägungen der Aktionsforschung verwendet. Als Ergebnis werden einerseits für Praktiker hilfreiche Frameworks und Tests zur Fehlerbehebung, Überwachungskennzahlen sowie Regeln des effektiven RFID-Systemmanagements beschrieben. Alle durchgeführten und in der Dissertation vorgestellten Maßnahmen führen nachweislich zu einer erhöhten Datenqualität eines implementierten RFID-Systems und stellen Möglichkeiten zur kennzahlenbasierten Visualisierung der RFID-Prozessperformance bereit. Andererseits wird ein Modell für die Verwendung der Aktionsforschung vorgeschlagen sowie eine umfangreiche Validierung der Methodik durchgeführt. Auf diese Weise wird neben der Praxisrelevanz der Ergebnisse auch die Präzision der Forschungsergebnisse sichergestellt.
Sämtliche Ergebnisse dienen als Basis für vielfältige Forschungsansätze. So ermöglichen eine höhere Verlässlichkeit und Datenqualität der RFID-Informationen aussagekräftigere Analysen. Weiter sind durch fehlerkorrigierte Prozessdaten neuartige Methoden des RFID-Data-Mining denkbar. Dieser Forschungsbereich ist nach wie vor größtenteils unberührt und bietet enormes Potential, weitere durch RFID in Aussicht gestellte Vorteile zu realisieren.
Die Extraktion von Metadaten aus historischen Dokumenten ist eine zeitintensive, komplexe und höchst fehleranfällige Tätigkeit, die üblicherweise vom menschlichen Experten übernommen werden muss. Sie ist jedoch notwendig, um Bezüge zwischen Dokumenten herzustellen, Suchanfragen zu historischen Ereignissen korrekt zu beantworten oder semantische Verknüpfungen aufzubauen. Um den manuellen Aufwand dieser Aufgabe reduzieren zu können, sollen Verfahren der Named Entity Recognition angewendet werden. Die Klassifikation von Termen in historischen Handschriften stellt jedoch eine große Herausforderung dar, da die Domäne eine hohe Schreibweisenvarianz durch unter anderem nur konventionell vereinbarte Orthographie mit sich bringt. Diese Arbeit stellt Verfahren vor, die auch in komplexen syntaktischen Umgebungen arbeiten können, indem sie auf Informationen aus dem Kontext der zu klassifizierenden Terme zurückgreifen und diese mit domänenspezifischen Heuristiken kombinieren. Weiterhin wird evaluiert, wie die so gewonnenen Metadaten genutzt werden können, um in Workflow-Systemen zur Digitalisierung historischer Handschriften Mehrwerte durch Heuristiken zur Produktionsfehlererkennung zu erzielen.
Large volumes of data are collected today in many domains. Often, there is so much data available, that it is difficult to identify the relevant pieces of information. Knowledge discovery seeks to obtain novel, interesting and useful information from large datasets.
One key technique for that purpose is subgroup discovery. It aims at identifying descriptions for subsets of the data, which have an interesting distribution with respect to a predefined target concept. This work improves the efficiency and effectiveness of subgroup discovery in different directions.
For efficient exhaustive subgroup discovery, algorithmic improvements are proposed for three important variations of the standard setting: First, novel optimistic estimate bounds are derived for subgroup discovery with numeric target concepts. These allow for skipping the evaluation of large parts of the search space without influencing the results. Additionally, necessary adaptations to data structures for this setting are discussed. Second, for exceptional model mining, that is, subgroup discovery with a model over multiple attributes as target concept, a generic extension of the well-known FP-tree data structure is introduced. The modified data structure stores intermediate condensed data representations, which depend on the chosen model class, in the nodes of the trees. This allows the application for many popular model classes. Third, subgroup discovery with generalization-aware measures is investigated.
These interestingness measures compare the target share or mean value in the subgroup with the respective maximum value in all its generalizations. For this setting, a novel method for deriving optimistic estimates is proposed. In contrast to previous approaches, the novel measures are not exclusively based on the anti-monotonicity of instance coverage, but also takes the difference of coverage between the subgroup and its generalizations into account. In all three areas, the advances lead to runtime improvements of more than an order of magnitude.
The second part of the contributions focuses on the \emph{effectiveness} of subgroup discovery. These improvements aim to identify more interesting subgroups in practical applications. For that purpose, the concept of expectation-driven subgroup discovery is introduced as a new family of interestingness measures. It computes the score of a subgroup based on the difference between the actual target share and the target share that could be expected given the statistics for the separate influence factors that are combined to describe the subgroup.
In doing so, previously undetected interesting subgroups are discovered, while other, partially redundant findings are suppressed.
Furthermore, this work also approaches practical issues of subgroup discovery: In that direction, the VIKAMINE II tool is presented, which extends its predecessor with a rebuild user interface, novel algorithms for automatic discovery, new interactive mining techniques, as well novel options for result presentation and introspection. Finally, some real-world applications are described that utilized the presented techniques. These include the identification of influence factors on the success and satisfaction of university students and the description of locations using tagging data of geo-referenced images.