TY - THES A1 - Allgaier, Johannes T1 - Machine Learning Explainability on Multi-Modal Data using Ecological Momentary Assessments in the Medical Domain T1 - Erklärbarkeit von maschinellem Lernen unter Verwendung multi-modaler Daten und Ecological Momentary Assessments im medizinischen Sektor N2 - Introduction. Mobile health (mHealth) integrates mobile devices into healthcare, enabling remote monitoring, data collection, and personalized interventions. Machine Learning (ML), a subfield of Artificial Intelligence (AI), can use mHealth data to confirm or extend domain knowledge by finding associations within the data, i.e., with the goal of improving healthcare decisions. In this work, two data collection techniques were used for mHealth data fed into ML systems: Mobile Crowdsensing (MCS), which is a collaborative data gathering approach, and Ecological Momentary Assessments (EMA), which capture real-time individual experiences within the individual’s common environments using questionnaires and sensors. We collected EMA and MCS data on tinnitus and COVID-19. About 15 % of the world’s population suffers from tinnitus. Materials & Methods. This thesis investigates the challenges of ML systems when using MCS and EMA data. It asks: How can ML confirm or broad domain knowledge? Domain knowledge refers to expertise and understanding in a specific field, gained through experience and education. Are ML systems always superior to simple heuristics and if yes, how can one reach explainable AI (XAI) in the presence of mHealth data? An XAI method enables a human to understand why a model makes certain predictions. Finally, which guidelines can be beneficial for the use of ML within the mHealth domain? In tinnitus research, ML discerns gender, temperature, and season-related variations among patients. In the realm of COVID-19, we collaboratively designed a COVID-19 check app for public education, incorporating EMA data to offer informative feedback on COVID-19-related matters. This thesis uses seven EMA datasets with more than 250,000 assessments. Our analyses revealed a set of challenges: App user over-representation, time gaps, identity ambiguity, and operating system specific rounding errors, among others. Our systematic review of 450 medical studies assessed prior utilization of XAI methods. Results. ML models predict gender and tinnitus perception, validating gender-linked tinnitus disparities. Using season and temperature to predict tinnitus shows the association of these variables with tinnitus. Multiple assessments of one app user can constitute a group. Neglecting these groups in data sets leads to model overfitting. In select instances, heuristics outperform ML models, highlighting the need for domain expert consultation to unveil hidden groups or find simple heuristics. Conclusion. This thesis suggests guidelines for mHealth related data analyses and improves estimates for ML performance. Close communication with medical domain experts to identify latent user subsets and incremental benefits of ML is essential. N2 - Einleitung. Unter Mobile Health (mHealth) versteht man die Nutzung mobiler Geräte wie Handys zur Unterstützung der Gesundheitsversorgung. So können Ärzt:innen z. B. Gesundheitsinformationen sammeln, die Gesundheit aus der Ferne überwachen, sowie personalisierte Behandlungen anbieten. Man kann maschinelles Lernen (ML) als System nutzen, um aus diesen Gesundheitsinformationen zu lernen. Das ML-System versucht, Muster in den mHealth Daten zu finden, um Ärzt:innen zu helfen, bessere Entschei- dungen zu treffen. Zur Datensammlung wurden zwei Methoden verwendet: Einerseits trugen zahlreiche Personen zur Sammlung von umfassenden Informationen mit mo- bilen Geräten bei (sog. Mobile Crowdsensing), zum anderen wurde den Mitwirkenden digitale Fragebögen gesendet und Sensoren wie GPS eingesetzt, um Informationen in einer alltäglichen Umgebung zu erfassen (sog. Ecologcial Momentary Assessments). Diese Arbeit verwendet Daten aus zwei medizinischen Bereichen: Tinnitus und COVID-19. Schätzungen zufolge leidet etwa 15 % der Menschheit an Tinnitus. Materialien & Methoden. Die Arbeit untersucht, wie ML-Systeme mit mHealth Daten umgehen: Wie können diese Systeme robuster werden oder neue Dinge lernen? Funktion- ieren die neuen ML-Systeme immer besser als einfache Daumenregeln, und wenn ja, wie können wir sie dazu bringen, zu erklären, warum sie bestimmte Entscheidungen treffen? Welche speziellen Regeln sollte man außerdem befolgen, wenn man ML-Systeme mit mHealth Daten trainiert? Während der COVID-19-Pandemie entwickelten wir eine App, die den Menschen helfen sollte, sich über das Virus zu informieren. Diese App nutzte Daten der Krankheitssymptome der App Nutzer:innen, um Handlungsempfehlungen für das weitere Vorgehen zu geben. Ergebnisse. ML-Systeme wurden trainiert, um Tinnitus vorherzusagen und wie er mit geschlechtsspezifischen Unterschieden zusammenhängen könnte. Die Verwendung von Faktoren wie Jahreszeit und Temperatur kann helfen, Tinnitus und seine Beziehung zu diesen Faktoren zu verstehen. Wenn wir beim Training nicht berücksichtigen, dass ein App User mehrere Datensätze ausfüllen kann, führt dies zu einer Überanpassung und damit Verschlechterung des ML-Systems. Interessanterweise führen manchmal einfache Regeln zu robusteren und besseren Modellen als komplexe ML-Systeme. Das zeigt, dass es wichtig ist, Experten auf dem Gebiet einzubeziehen, um Überanpassung zu vermeiden oder einfache Regeln zur Vorhersage zu finden. Fazit. Durch die Betrachtung verschiedener Langzeitdaten konnten wir neue Empfehlun- gen zur Analyse von mHealth Daten und der Entwicklung von ML-Systemen ableiten. Dabei ist es wichtig, medizinischen Experten mit einzubeziehen, um Überanpassung zu vermeiden und ML-Systeme schrittweise zu verbessern. KW - Maschinelles Lernen KW - Explainable Artificial Intelligence KW - Mobile Health KW - Machine Learning KW - Explainable AI KW - Mobile Crowdsensing KW - Ecological Momentary Assessments Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-351189 ER - TY - THES A1 - Gründler, Klaus T1 - A Contribution to the Empirics of Economic Development - The Role of Technology, Inequality, and the State T1 - Eine empirische Untersuchung der wirtschaftlichen Entwicklung - Die Rolle von Technologien, Ungleichheit und dem Staat N2 - This dissertation contributes to the empirical analysis of economic development. The continuing poverty in many Sub-Saharan-African countries as well as the declining trend in growth in the advanced economies that was initiated around the turn of the millennium raises a number of new questions which have received little attention in recent empirical studies. Is culture a decisive factor for economic development? Do larger financial markets trigger positive stimuli with regard to incomes, or is the recent increase in their size in advanced economies detrimental to economic growth? What causes secular stagnation, i.e. the reduction in growth rates of the advanced economies observable over the past 20 years? What is the role of inequality in the growth process, and how do governmental attempts to equalize the income distribution affect economic development? And finally: Is the process of democratization accompanied by an increase in living standards? These are the central questions of this doctoral thesis. To facilitate the empirical analysis of the determinants of economic growth, this dissertation introduces a new method to compute classifications in the field of social sciences. The approach is based on mathematical algorithms of machine learning and pattern recognition. Whereas the construction of indices typically relies on arbitrary assumptions regarding the aggregation strategy of the underlying attributes, utilization of Support Vector Machines transfers the question of how to aggregate the individual components into a non-linear optimization problem. Following a brief overview of the theoretical models of economic growth provided in the first chapter, the second chapter illustrates the importance of culture in explaining the differences in incomes across the globe. In particular, if inhabitants have a lower average degree of risk-aversion, the implementation of new technology proceeds much faster compared with countries with a lower tendency towards risk. However, this effect depends on the legal and political framework of the countries, their average level of education, and their stage of development. The initial wealth of individuals is often not sufficient to cover the cost of investments in both education and new technologies. By providing loans, a developed financial sector may help to overcome this shortage. However, the investigations in the third chapter show that this mechanism is dependent on the development levels of the economies. In poor countries, growth of the financial sector leads to better education and higher investment levels. This effect diminishes along the development process, as intermediary activity is increasingly replaced by speculative transactions. Particularly in times of low technological innovation, an increasing financial sector has a negative impact on economic development. In fact, the world economy is currently in a phase of this kind. Since the turn of the millennium, growth rates in the advanced economies have experienced a multi-national decline, leading to an intense debate about "secular stagnation" initiated at the beginning of 2015. The fourth chapter deals with this phenomenon and shows that the growth potentials of new technologies have been gradually declining since the beginning of the 2000s. If incomes are unequally distributed, some individuals can invest less in education and technological innovations, which is why the fifth chapter identifies an overall negative effect of inequality on growth. This influence, however, depends on the development level of countries. While the negative effect is strongly pronounced in poor economies with a low degree of equality of opportunity, this influence disappears during the development process. Accordingly, redistributive polices of governments exert a growth-promoting effect in developing countries, while in advanced economies, the fostering of equal opportunities is much more decisive. The sixth chapter analyzes the growth effect of the political environment and shows that the ambiguity of earlier studies is mainly due to unsophisticated measurement of the degree of democratization. To solve this problem, the chapter introduces a new method based on mathematical algorithms of machine learning and pattern recognition. While the approach can be used for various classification problems in the field of social sciences, in this dissertation it is applied for the problem of democracy measurement. Based on different country examples, the chapter shows that the resulting SVMDI is superior to other indices in modeling the level of democracy. The subsequent empirical analysis emphasizes a significantly positive growth effect of democracy measured via SVMDI. N2 - Die Dissertation beschäftigt sich mit der statistischen und empirischen Analyse der Determinanten langfristiger Wachstumsprozesse. Die anhaltende Armut vieler Staaten in Subsahara-Afrika sowie die rückläufigen Wachstumsraten der reichen Volkswirtschaften seit Beginn des neuen Jahrtausends werfen eine Reihe neuer Fragen auf, die bislang wenig empirisch erforscht sind. Ist die Kultur eines Landes entscheidend für die Entwicklung der Wohlfahrt? Kann ein entwickelter Finanzsektor Wohlstandssteigerungen auslösen, oder ist der starke Zuwachs der Finanzmärkte, der in den Industrienationen beobachtet werden kann, schädlich für die Entwicklung? Warum wachsen reiche Volkswirtschaften heute so viel langsamer als noch vor 20 Jahren? Welchen Einfluss nimmt die zunehmende Einkommensungleichheit auf die wirtschaftliche Entwicklung und welchen Effekt haben staatliche Umverteilungsmaßnahmen? Und schließlich: Führen stärkere politische Rechte und mehr Demokratie zu einer Zunahme der Lebensstandards? Dies sind die zentralen Fragestellungen, denen sich die Kapitel dieser Doktorarbeit widmen. Um die Analyse der empirischen Ursachen der wirtschaftlichen Entwicklung zu erleichtern, leitet die Dissertation überdies ein neues Verfahren zur Lösung von Klassifikationsproblemen in den Sozialwissenschaften ab. Das Verfahren beruht auf mathematischen Algorithmen zur Mustererkennung und des maschinellen Lernens. Dies bietet neue Möglichkeiten für das Konstruieren von Indizes, die zumeist auf arbiträre Annahmen über die zugrundeliegende Aggregationsfunktion zurückgreifen. Das vorgestellte Verfahren löst dieses Problem, in dem die Aggregation durch Support Vector Machines in ein nicht-lineares Optimierungsproblem überführt wird. Nach einem kurzen Überblick über die theoretischen Erklärungsansätze der wirtschaftlichen Entwicklung im ersten Kapitel zeigt das zweite Kapitel, dass kulturelle Unterschieden einen Einfluss auf die ökonomische Entwicklung ausüben. Die Ergebnisse implizieren, dass Länder mit einer geringeren Aversion gegen Risiken höhere Wachstumsraten aufweisen, da in diesen Ländern die Implementierung neuer Technologien schneller voranschreitet. Der Effekt ist allerdings abhängig von den rechtlichen und politischen Rahmenbedingungen der Länder, vom durchschnittlichen Bildungsniveau sowie vom Entwicklungsstand. In vielen Fällen reichen die Vermögen der Individuen nicht aus, um Investitionen in Bildung, Kapital und neue Technologien zu stemmen. Durch die Bereitstellung von Krediten kann ein entwickelter Finanzsektor diesen Engpass überwinden. Die Untersuchungen des dritten Kapitels zeigen allerdings, dass dieser Mechanismus abhängig ist von den Entwicklungsniveaus der Volkswirtschaften. In armen Ländern führt ein Anstieg des Finanzsektors zu besserer Bildung und höheren Investitionen. Dieser Effekt nimmt jedoch über den Entwicklungsprozess ab, da die Intermediationstätigkeit zunehmend durch spekulative Geschäfte ersetzt wird. Insbesondere in Zeiten mit geringen technologischen Neuerungen wirkt ein wachsender Finanzsektor negativ auf die ökonomische Entwicklung. Aktuell befindet sich die Weltökonomie in einer solchen Phase, was verbunden mit einem multinationalen Rückgang der Wachstumsraten seit Anfang 2015 als "säkulare Stagnation" diskutiert wird. Das vierte Kapitel befasst sich intensiv mit diesem Phänomen und zeigt, dass die gegenwärtigen Wachstumspotenziale neuer Technologien seit Beginn der 2000er Jahre zunehmend auslaufen. Sind die Einkommen ungleich verteilt, so können einige Individuen weniger Investitionen in Bildung und technologische Neuerungen durchführen. Tatsächlich weist das fünfte Kapitel auf einen insgesamt negativen Effekt der Ungleichheit auf das Wachstum hin. Dieser Einfluss ist allerdings abhängig vom Entwicklungsstand der Länder. Während der negative Effekt in armen Volkswirtschaften mit einem geringen Maß an Chancengleichheit stark ausgeprägt ist, verschwindet dieser Einfluss mit zunehmendem Entwicklungsniveau. Entsprechend wirkt direkte staatliche Umverteilung vor allem in unterentwickelten Ländern wachstumsfördernd. In entwickelten Nationen ist hingegen die Schaffung von Chancengleichheit entscheidend. Das sechste Kapitel analysiert den Wachstumseffekt des politischen Umfelds und zeigt, dass die Ambivalenz früherer Studien auf die mangelhafte Abbildung des Demokratiegrades zurückzuführen ist. Zur Lösung dieses Problems wird ein neues Verfahren vorgeschlagen, das auf mathematischen Algorithmen des maschinellen Lernens basiert. Das Verfahren kann in verschiedenen Bereichen der Sozialwissenschaften eingesetzt werden und wird in der Arbeit zur Klassifikation des Demokratiegrades angewandt. Auf Basis verschiedener Länderbeispiele wird deutlich, dass der resultierende SVMDI anderen Indizes in der Modellierung des Demokratiegrades überlegen ist. Die anschließende empirische Analyse betont einen signifikant positiven Effekt des SVMDI auf das Wirtschaftswachstum. N2 - Why are some nations rich and others poor? What are the sources of long-run economic development and growth? How can living standards be increased? In this book, Klaus Gründler empirically analyses these central economic questions and puts a particular emphasis on the role of technology, inequality, and political institutions. To substantiate his empirical studies, he introduces a new method to compute composite measures and indices that is based on mathematical algorithms from the field of machine learning. KW - Wirtschaftsentwicklung KW - Wirtschaftsstruktur KW - Sozioökonomisches System KW - Inequality KW - Economic Growth KW - Machine Learning KW - Empirical Economics KW - Ungleichheit KW - Wirtschaftswachstum KW - Maschinelles Lernen KW - Makroökonomie KW - Empirische Wirtschaftsforschung Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-141520 SN - 978-3-95826-072-6 (Print) SN - 978-3-95826-073-3 (Online) N1 - Parallel erschienen als Druckausgabe in Würzburg University Press, 978-3-95826-072-6, 41,80 EUR. PB - Würzburg University Press CY - Würzburg ET - 1. Auflage ER - TY - THES A1 - Kobs, Konstantin T1 - Think outside the Black Box: Model-Agnostic Deep Learning with Domain Knowledge T1 - Think outside the Black Box: Modellagnostisches Deep Learning mit Domänenwissen N2 - Deep Learning (DL) models are trained on a downstream task by feeding (potentially preprocessed) input data through a trainable Neural Network (NN) and updating its parameters to minimize the loss function between the predicted and the desired output. While this general framework has mainly remained unchanged over the years, the architectures of the trainable models have greatly evolved. Even though it is undoubtedly important to choose the right architecture, we argue that it is also beneficial to develop methods that address other components of the training process. We hypothesize that utilizing domain knowledge can be helpful to improve DL models in terms of performance and/or efficiency. Such model-agnostic methods can be applied to any existing or future architecture. Furthermore, the black box nature of DL models motivates the development of techniques to understand their inner workings. Considering the rapid advancement of DL architectures, it is again crucial to develop model-agnostic methods. In this thesis, we explore six principles that incorporate domain knowledge to understand or improve models. They are applied either on the input or output side of the trainable model. Each principle is applied to at least two DL tasks, leading to task-specific implementations. To understand DL models, we propose to use Generated Input Data coming from a controllable generation process requiring knowledge about the data properties. This way, we can understand the model’s behavior by analyzing how it changes when one specific high-level input feature changes in the generated data. On the output side, Gradient-Based Attribution methods create a gradient at the end of the NN and then propagate it back to the input, indicating which low-level input features have a large influence on the model’s prediction. The resulting input features can be interpreted by humans using domain knowledge. To improve the trainable model in terms of downstream performance, data and compute efficiency, or robustness to unwanted features, we explore principles that each address one of the training components besides the trainable model. Input Masking and Augmentation directly modifies the training input data, integrating knowledge about the data and its impact on the model’s output. We also explore the use of Feature Extraction using Pretrained Multimodal Models which can be seen as a beneficial preprocessing step to extract useful features. When no training data is available for the downstream task, using such features and domain knowledge expressed in other modalities can result in a Zero-Shot Learning (ZSL) setting, completely eliminating the trainable model. The Weak Label Generation principle produces new desired outputs using knowledge about the labels, giving either a good pretraining or even exclusive training dataset to solve the downstream task. Finally, improving and choosing the right Loss Function is another principle we explore in this thesis. Here, we enrich existing loss functions with knowledge about label interactions or utilize and combine multiple task-specific loss functions in a multitask setting. We apply the principles to classification, regression, and representation tasks as well as to image and text modalities. We propose, apply, and evaluate existing and novel methods to understand and improve the model. Overall, this thesis introduces and evaluates methods that complement the development and choice of DL model architectures. N2 - Deep-Learning-Modelle (DL-Modelle) werden trainiert, indem potenziell vorverarbeitete Eingangsdaten durch ein trainierbares Neuronales Netz (NN) geleitet und dessen Parameter aktualisiert werden, um die Verlustfunktion zwischen der Vorhersage und der gewünschten Ausgabe zu minimieren. Während sich dieser allgemeine Ablauf kaum geändert hat, haben sich die verwendeten NN-Architekturen erheblich weiterentwickelt. Auch wenn die Wahl der Architektur für die Aufgabe zweifellos wichtig ist, schlagen wir in dieser Arbeit vor, Methoden für andere Komponenten des Trainingsprozesses zu entwickeln. Wir vermuten, dass die Verwendung von Domänenwissen hilfreich bei der Verbesserung von DL-Modellen bezüglich ihrer Leistung und/oder Effizienz sein kann. Solche modellagnostischen Methoden sind dann bei jeder bestehenden oder zukünftigen NN-Architektur anwendbar. Die Black-Box-Natur von DL-Modellen motiviert zudem die Entwicklung von Methoden, die zum Verständnis der Funktionsweise dieser Modelle beitragen. Angesichts der schnellen Architektur-Entwicklung ist es wichtig, modellagnostische Methoden zu entwickeln. In dieser Arbeit untersuchen wir sechs Prinzipien, die Domänenwissen verwenden, um Modelle zu verstehen oder zu verbessern. Sie werden auf Trainingskomponenten im Eingang oder Ausgang des Modells angewendet. Jedes Prinzip wird dann auf mindestens zwei DL-Aufgaben angewandt, was zu aufgabenspezifischen Implementierungen führt. Um DL-Modelle zu verstehen, verwenden wir kontrolliert generierte Eingangsdaten, was Wissen über die Dateneigenschaften benötigt. So können wir das Verhalten des Modells verstehen, indem wir die Ausgabeänderung bei der Änderung von abstrahierten Eingabefeatures beobachten. Wir untersuchen zudem gradienten-basierte Attribution-Methoden, die am Ausgang des NN einen Gradienten anlegen und zur Eingabe zurückführen. Eingabefeatures mit großem Einfluss auf die Modellvorhersage können so identifiziert und von Menschen mit Domänenwissen interpretiert werden. Um Modelle zu verbessern (in Bezug auf die Ergebnisgüte, Daten- und Recheneffizienz oder Robustheit gegenüber ungewollten Eingaben), untersuchen wir Prinzipien, die jeweils eine Trainingskomponente neben dem trainierbaren Modell betreffen. Das Maskieren und Augmentieren von Eingangsdaten modifiziert direkt die Trainingsdaten und integriert dabei Wissen über ihren Einfluss auf die Modellausgabe. Die Verwendung von vortrainierten multimodalen Modellen zur Featureextraktion kann als ein Vorverarbeitungsschritt angesehen werden. Bei fehlenden Trainingsdaten können die Features und Domänenwissen in anderen Modalitäten als Zero-Shot Setting das trainierbare Modell gänzlich eliminieren. Das Weak-Label-Generierungs-Prinzip erzeugt neue gewünschte Ausgaben anhand von Wissen über die Labels, was zu einem Pretrainings- oder exklusiven Trainigsdatensatz führt. Schließlich ist die Verbesserung und Auswahl der Verlustfunktion ein weiteres untersuchtes Prinzip. Hier reichern wir bestehende Verlustfunktionen mit Wissen über Label-Interaktionen an oder kombinieren mehrere aufgabenspezifische Verlustfunktionen als Multi-Task-Ansatz. Wir wenden die Prinzipien auf Klassifikations-, Regressions- und Repräsentationsaufgaben sowie Bild- und Textmodalitäten an. Wir stellen bestehende und neue Methoden vor, wenden sie an und evaluieren sie für das Verstehen und Verbessern von DL-Modellen, was die Entwicklung und Auswahl von DL-Modellarchitekturen ergänzt. KW - Deep learning KW - Neuronales Netz KW - Maschinelles Lernen KW - Machine Learning KW - Model-Agnostic KW - Domain Knowledge Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-349689 ER - TY - THES A1 - Krenzer, Adrian T1 - Machine learning to support physicians in endoscopic examinations with a focus on automatic polyp detection in images and videos T1 - Maschinelles Lernen zur Unterstützung von Ärzten bei endoskopischen Untersuchungen mit Schwerpunkt auf der automatisierten Polypenerkennung in Bildern und Videos N2 - Deep learning enables enormous progress in many computer vision-related tasks. Artificial Intel- ligence (AI) steadily yields new state-of-the-art results in the field of detection and classification. Thereby AI performance equals or exceeds human performance. Those achievements impacted many domains, including medical applications. One particular field of medical applications is gastroenterology. In gastroenterology, machine learning algorithms are used to assist examiners during interventions. One of the most critical concerns for gastroenterologists is the development of Colorectal Cancer (CRC), which is one of the leading causes of cancer-related deaths worldwide. Detecting polyps in screening colonoscopies is the essential procedure to prevent CRC. Thereby, the gastroenterologist uses an endoscope to screen the whole colon to find polyps during a colonoscopy. Polyps are mucosal growths that can vary in severity. This thesis supports gastroenterologists in their examinations with automated detection and clas- sification systems for polyps. The main contribution is a real-time polyp detection system. This system is ready to be installed in any gastroenterology practice worldwide using open-source soft- ware. The system achieves state-of-the-art detection results and is currently evaluated in a clinical trial in four different centers in Germany. The thesis presents two additional key contributions: One is a polyp detection system with ex- tended vision tested in an animal trial. Polyps often hide behind folds or in uninvestigated areas. Therefore, the polyp detection system with extended vision uses an endoscope assisted by two additional cameras to see behind those folds. If a polyp is detected, the endoscopist receives a vi- sual signal. While the detection system handles the additional two camera inputs, the endoscopist focuses on the main camera as usual. The second one are two polyp classification models, one for the classification based on shape (Paris) and the other on surface and texture (NBI International Colorectal Endoscopic (NICE) classification). Both classifications help the endoscopist with the treatment of and the decisions about the detected polyp. The key algorithms of the thesis achieve state-of-the-art performance. Outstandingly, the polyp detection system tested on a highly demanding video data set shows an F1 score of 90.25 % while working in real-time. The results exceed all real-time systems in the literature. Furthermore, the first preliminary results of the clinical trial of the polyp detection system suggest a high Adenoma Detection Rate (ADR). In the preliminary study, all polyps were detected by the polyp detection system, and the system achieved a high usability score of 96.3 (max 100). The Paris classification model achieved an F1 score of 89.35 % which is state-of-the-art. The NICE classification model achieved an F1 score of 81.13 %. Furthermore, a large data set for polyp detection and classification was created during this thesis. Therefore a fast and robust annotation system called Fast Colonoscopy Annotation Tool (FastCAT) was developed. The system simplifies the annotation process for gastroenterologists. Thereby the i gastroenterologists only annotate key parts of the endoscopic video. Afterward, those video parts are pre-labeled by a polyp detection AI to speed up the process. After the AI has pre-labeled the frames, non-experts correct and finish the annotation. This annotation process is fast and ensures high quality. FastCAT reduces the overall workload of the gastroenterologist on average by a factor of 20 compared to an open-source state-of-art annotation tool. N2 - Deep Learning ermöglicht enorme Fortschritte bei vielen Aufgaben im Bereich der Computer Vision. Künstliche Intelligenz (KI) liefert ständig neue Spitzenergebnisse im Bereich der Erkennung und Klassifizierung. Dabei erreicht oder übertrifft die Leistung von KI teilweise die menschliche Leistung. Diese Errungenschaften wirken sich auf viele Bereiche aus, darunter auch auf medizinische Anwendungen. Ein besonderer Bereich der medizinischen Anwendungen ist die Gastroenterologie. In der Gastroenterologie werden Algorithmen des maschinellen Lernens eingesetzt, um den Untersucher bei medizinischen Eingriffen zu unterstützen. Eines der größten Probleme für Gastroenterologen ist die Entwicklung von Darmkrebs, die weltweit eine der häufigsten krebsbedingten Todesursachen ist. Die Erkennung von Polypen bei Darmspiegelungen ist das wichtigste Verfahren zur Vorbeugung von Darmkrebs. Dabei untersucht der Gastroenterologe den Dickdarm im Rahmen einer Koloskopie, um z.B. Polypen zu finden. Polypen sind Schleimhautwucherungen, die unterschiedlich stark ausgeprägt sein können. Diese Arbeit unterstützt Gastroenterologen bei ihren Untersuchungen mit automatischen Erkennungssystemen und Klassifizierungssystemen für Polypen. Der Hauptbeitrag ist ein Echtzeitpolypenerkennungssystem. Dieses System kann in jeder gastroenterologischen Praxis weltweit mit Open- Source-Software installiert werden. Das System erzielt Erkennungsergebnisse auf dem neusten Stand der Technik und wird derzeit in einer klinischen Studie in vier verschiedenen Praxen in Deutschland evaluiert. In dieser Arbeit werden zwei weitere wichtige Beiträge vorgestellt: Zum einen ein Polypenerkennungssystem mit erweiterter Sicht, das in einem Tierversuch getestet wurde. Polypen verstecken sich oft hinter Falten oder in nicht untersuchten Bereichen. Daher verwendet das Polypenerkennungssystem mit erweiterter Sicht ein Endoskop, das von zwei zusätzlichen Kameras unterstützt wird, um hinter diese Falten zu sehen. Wenn ein Polyp entdeckt wird, erhält der Endoskopiker ein visuelles Signal. Während das Erkennungssystem die beiden zusätzlichen Kameraeingaben verarbeitet, konzentriert sich der Endoskopiker wie gewohnt auf die Hauptkamera. Das zweite sind zwei Polypenklassifizierungsmodelle, eines für die Klassifizierung anhand der Form (Paris) und das andere anhand der Oberfläche und Textur (NICE-Klassifizierung). Beide Klassifizierungen helfen dem Endoskopiker bei der Behandlung und Entscheidung über den erkannten Polypen. Die Schlüsselalgorithmen der Dissertation erreichen eine Leistung, die dem neuesten Stand der Technik entspricht. Herausragend ist, dass das auf einem anspruchsvollen Videodatensatz getestete Polypenerkennungssystem einen F1-Wert von 90,25 % aufweist, während es in Echtzeit arbeitet. Die Ergebnisse übertreffen alle Echtzeitsysteme für Polypenerkennung in der Literatur. Darüber hinaus deuten die ersten vorläufigen Ergebnisse einer klinischen Studie des Polypenerkennungssystems auf eine hohe Adenomdetektionsrate ADR hin. In dieser Studie wurden alle Polypen durch das Polypenerkennungssystem erkannt, und das System erreichte einen hohe Nutzerfreundlichkeit von 96,3 (maximal 100). Bei der automatischen Klassifikation von Polypen basierend auf der Paris Klassifikations erreichte das in dieser Arbeit entwickelte System einen F1-Wert von 89,35 %, was dem neuesten Stand der Technik entspricht. Das NICE-Klassifikationsmodell erreichte eine F1- Wert von 81,13 %. Darüber hinaus wurde im Rahmen dieser Arbeit ein großer Datensatz zur Polypenerkennung und -klassifizierung erstellt. Dafür wurde ein schnelles und robustes Annotationssystem namens FastCAT entwickelt. Das System vereinfacht den Annotationsprozess für Gastroenterologen. Die Gastroenterologen annotieren dabei nur die wichtigsten Teile des endoskopischen Videos. Anschließend werden diese Videoteile von einer Polypenerkennungs-KI vorverarbeitet, um den Prozess zu beschleunigen. Nachdem die KI die Bilder vorbeschriftet hat, korrigieren und vervollständigen Nicht-Experten die Annotationen. Dieser Annotationsprozess ist schnell und gewährleistet eine hohe Qualität. FastCAT reduziert die Gesamtarbeitsbelastung des Gastroenterologen im Durchschnitt um den Faktor 20 im Vergleich zu einem Open-Source-Annotationstool auf dem neuesten Stand der Technik. KW - Deep Learning KW - Maschinelles Lernen KW - Maschinelles Sehen KW - Machine Learning KW - Object Detection KW - Medical Image Analysis KW - Computer Vision Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-319119 ER - TY - THES A1 - Niebler, Thomas T1 - Extracting and Learning Semantics from Social Web Data T1 - Extraktion und Lernen von Semantik aus Social Web-Daten N2 - Making machines understand natural language is a dream of mankind that existed since a very long time. Early attempts at programming machines to converse with humans in a supposedly intelligent way with humans relied on phrase lists and simple keyword matching. However, such approaches cannot provide semantically adequate answers, as they do not consider the specific meaning of the conversation. Thus, if we want to enable machines to actually understand language, we need to be able to access semantically relevant background knowledge. For this, it is possible to query so-called ontologies, which are large networks containing knowledge about real-world entities and their semantic relations. However, creating such ontologies is a tedious task, as often extensive expert knowledge is required. Thus, we need to find ways to automatically construct and update ontologies that fit human intuition of semantics and semantic relations. More specifically, we need to determine semantic entities and find relations between them. While this is usually done on large corpora of unstructured text, previous work has shown that we can at least facilitate the first issue of extracting entities by considering special data such as tagging data or human navigational paths. Here, we do not need to detect the actual semantic entities, as they are already provided because of the way those data are collected. Thus we can mainly focus on the problem of assessing the degree of semantic relatedness between tags or web pages. However, there exist several issues which need to be overcome, if we want to approximate human intuition of semantic relatedness. For this, it is necessary to represent words and concepts in a way that allows easy and highly precise semantic characterization. This also largely depends on the quality of data from which these representations are constructed. In this thesis, we extract semantic information from both tagging data created by users of social tagging systems and human navigation data in different semantic-driven social web systems. Our main goal is to construct high quality and robust vector representations of words which can the be used to measure the relatedness of semantic concepts. First, we show that navigation in the social media systems Wikipedia and BibSonomy is driven by a semantic component. After this, we discuss and extend methods to model the semantic information in tagging data as low-dimensional vectors. Furthermore, we show that tagging pragmatics influences different facets of tagging semantics. We then investigate the usefulness of human navigational paths in several different settings on Wikipedia and BibSonomy for measuring semantic relatedness. Finally, we propose a metric-learning based algorithm in adapt pre-trained word embeddings to datasets containing human judgment of semantic relatedness. This work contributes to the field of studying semantic relatedness between words by proposing methods to extract semantic relatedness from web navigation, learn highquality and low-dimensional word representations from tagging data, and to learn semantic relatedness from any kind of vector representation by exploiting human feedback. Applications first and foremest lie in ontology learning for the Semantic Web, but also semantic search or query expansion. N2 - Einer der großen Träume der Menschheit ist es, Maschinen dazu zu bringen, natürliche Sprache zu verstehen. Frühe Versuche, Computer dahingehend zu programmieren, dass sie mit Menschen vermeintlich intelligente Konversationen führen können, basierten hauptsächlich auf Phrasensammlungen und einfachen Stichwortabgleichen. Solche Ansätze sind allerdings nicht in der Lage, inhaltlich adäquate Antworten zu liefern, da der tatsächliche Inhalt der Konversation nicht erfasst werden kann. Folgerichtig ist es notwendig, dass Maschinen auf semantisch relevantes Hintergrundwissen zugreifen können, um diesen Inhalt zu verstehen. Solches Wissen ist beispielsweise in Ontologien vorhanden. Ontologien sind große Datenbanken von vernetztem Wissen über Objekte und Gegenstände der echten Welt sowie über deren semantische Beziehungen. Das Erstellen solcher Ontologien ist eine sehr kostspielige und aufwändige Aufgabe, da oft tiefgreifendes Expertenwissen benötigt wird. Wir müssen also Wege finden, um Ontologien automatisch zu erstellen und aktuell zu halten, und zwar in einer Art und Weise, dass dies auch menschlichem Empfinden von Semantik und semantischer Ähnlichkeit entspricht. Genauer gesagt ist es notwendig, semantische Entitäten und deren Beziehungen zu bestimmen. Während solches Wissen üblicherweise aus Textkorpora extrahiert wird, ist es möglich, zumindest das erste Problem - semantische Entitäten zu bestimmen - durch Benutzung spezieller Datensätze zu umgehen, wie zum Beispiel Tagging- oder Navigationsdaten. In diesen Arten von Datensätzen ist es nicht notwendig, Entitäten zu extrahieren, da sie bereits aufgrund inhärenter Eigenschaften bei der Datenakquise vorhanden sind. Wir können uns also hauptsächlich auf die Bestimmung von semantischen Relationen und deren Intensität fokussieren. Trotzdem müssen hier noch einige Hindernisse überwunden werden. Beispielsweise ist es notwendig, Repräsentationen für semantische Entitäten zu finden, so dass es möglich ist, sie einfach und semantisch hochpräzise zu charakterisieren. Dies hängt allerdings auch erheblich von der Qualität der Daten ab, aus denen diese Repräsentationen konstruiert werden. In der vorliegenden Arbeit extrahieren wir semantische Informationen sowohl aus Taggingdaten, von Benutzern sozialer Taggingsysteme erzeugt, als auch aus Navigationsdaten von Benutzern semantikgetriebener Social Media-Systeme. Das Hauptziel dieser Arbeit ist es, hochqualitative und robuste Vektordarstellungen von Worten zu konstruieren, die dann dazu benutzt werden können, die semantische Ähnlichkeit von Konzepten zu bestimmen. Als erstes zeigen wir, dass Navigation in Social Media Systemen unter anderem durch eine semantische Komponente getrieben wird. Danach diskutieren und erweitern wir Methoden, um die semantische Information in Taggingdaten als niedrigdimensionale sogenannte “Embeddings” darzustellen. Darüberhinaus demonstrieren wir, dass die Taggingpragmatik verschiedene Facetten der Taggingsemantik beeinflusst. Anschließend untersuchen wir, inwieweit wir menschliche Navigationspfade zur Bestimmung semantischer Ähnlichkeit benutzen können. Hierzu betrachten wir mehrere Datensätze, die Navigationsdaten in verschiedenen Rahmenbedingungen beinhalten. Als letztes stellen wir einen neuartigen Algorithmus vor, um bereits trainierte Word Embeddings im Nachhinein an menschliche Intuition von Semantik anzupassen. Diese Arbeit steuert wertvolle Beiträge zum Gebiet der Bestimmung von semantischer Ähnlichkeit bei: Es werden Methoden vorgestellt werden, um hochqualitative semantische Information aus Web-Navigation und Taggingdaten zu extrahieren, diese mittels niedrigdimensionaler Vektordarstellungen zu modellieren und selbige schließlich besser an menschliches Empfinden von semantischer Ähnlichkeit anzupassen, indem aus genau diesem Empfinden gelernt wird. Anwendungen liegen in erster Linie darin, Ontologien für das Semantic Web zu lernen, allerdings auch in allen Bereichen, die Vektordarstellungen von semantischen Entitäten benutzen. KW - Semantik KW - Maschinelles Lernen KW - Soziale Software KW - Semantics KW - User Behavior KW - Social Web KW - Machine Learning Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-178666 ER - TY - THES A1 - Notz, Pascal Markus T1 - Prescriptive Analytics for Data-driven Capacity Management T1 - Prescriptive Analytics für datengetriebenes Kapazitätsmanagement N2 - Digitization and artificial intelligence are radically changing virtually all areas across business and society. These developments are mainly driven by the technology of machine learning (ML), which is enabled by the coming together of large amounts of training data, statistical learning theory, and sufficient computational power. This technology forms the basis for the development of new approaches to solve classical planning problems of Operations Research (OR): prescriptive analytics approaches integrate ML prediction and OR optimization into a single prescription step, so they learn from historical observations of demand and a set of features (co-variates) and provide a model that directly prescribes future decisions. These novel approaches provide enormous potential to improve planning decisions, as first case reports showed, and, consequently, constitute a new field of research in Operations Management (OM). First works in this new field of research have studied approaches to solving comparatively simple planning problems in the area of inventory management. However, common OM planning problems often have a more complex structure, and many of these complex planning problems are within the domain of capacity planning. Therefore, this dissertation focuses on developing new prescriptive analytics approaches for complex capacity management problems. This dissertation consists of three independent articles that develop new prescriptive approaches and use these to solve realistic capacity planning problems. The first article, “Prescriptive Analytics for Flexible Capacity Management”, develops two prescriptive analytics approaches, weighted sample average approximation (wSAA) and kernelized empirical risk minimization (kERM), to solve a complex two-stage capacity planning problem that has been studied extensively in the literature: a logistics service provider sorts daily incoming mail items on three service lines that must be staffed on a weekly basis. This article is the first to develop a kERM approach to solve a complex two-stage stochastic capacity planning problem with matrix-valued observations of demand and vector-valued decisions. The article develops out-of-sample performance guarantees for kERM and various kernels, and shows the universal approximation property when using a universal kernel. The results of the numerical study suggest that prescriptive analytics approaches may lead to significant improvements in performance compared to traditional two-step approaches or SAA and that their performance is more robust to variations in the exogenous cost parameters. The second article, “Prescriptive Analytics for a Multi-Shift Staffing Problem”, uses prescriptive analytics approaches to solve the (queuing-type) multi-shift staffing problem (MSSP) of an aviation maintenance provider that receives customer requests of uncertain number and at uncertain arrival times throughout each day and plans staff capacity for two shifts. This planning problem is particularly complex because the order inflow and processing are modelled as a queuing system, and the demand in each day is non-stationary. The article addresses this complexity by deriving an approximation of the MSSP that enables the planning problem to be solved using wSAA, kERM, and a novel Optimization Prediction approach. A numerical evaluation shows that wSAA leads to the best performance in this particular case. The solution method developed in this article builds a foundation for solving queuing-type planning problems using prescriptive analytics approaches, so it bridges the “worlds” of queuing theory and prescriptive analytics. The third article, “Explainable Subgradient Tree Boosting for Prescriptive Analytics in Operations Management” proposes a novel prescriptive analytics approach to solve the two capacity planning problems studied in the first and second articles that allows decision-makers to derive explanations for prescribed decisions: Subgradient Tree Boosting (STB). STB combines the machine learning method Gradient Boosting with SAA and relies on subgradients because the cost function of OR planning problems often cannot be differentiated. A comprehensive numerical analysis suggests that STB can lead to a prescription performance that is comparable to that of wSAA and kERM. The explainability of STB prescriptions is demonstrated by breaking exemplary decisions down into the impacts of individual features. The novel STB approach is an attractive choice not only because of its prescription performance, but also because of the explainability that helps decision-makers understand the causality behind the prescriptions. The results presented in these three articles demonstrate that using prescriptive analytics approaches, such as wSAA, kERM, and STB, to solve complex planning problems can lead to significantly better decisions compared to traditional approaches that neglect feature data or rely on a parametric distribution estimation. N2 - Digitalisierung und künstliche Intelligenz führen zu enormen Veränderungen in nahezu allen Bereichen von Wirtschaft und Gesellschaft. Grundlegend für diese Veränderungen ist die Technologie des maschinellen Lernens (ML), ermöglicht durch ein Zusammenspiel großer Datenmengen, geeigneter Algorithmen und ausreichender Rechenleistung. Diese Technologie bildet die Basis für die Entwicklung neuartiger Ansätze zur Lösung klassischer Planungsprobleme des Operations Research (OR): Präskriptive Ansätze integrieren Methoden des ML und Optimierungsverfahren des OR mit dem Ziel, Lösungen für Planungsprobleme direkt aus historischen Observationen von Nachfrage und Features (erklärenden Variablen) abzuleiten. Diese neuartigen Lösungsansätze bieten ein enormes Potential zur Verbesserung von Planungsentscheidungen, wie erste numerische Analysen mit historischen Daten gezeigt haben, und begründen damit ein neues Forschungsfeld innerhalb des OR. In ersten Beiträgen zu diesem neuen Forschungsfeld wurden präskriptive Verfahren für verhältnismäßig einfache Planungsprobleme aus dem Bereich des Lagerbestandsmanagements entwickelt. Häufig weisen Planungsprobleme aber eine deutlich höhere Komplexität auf, und viele dieser komplexen Planungsprobleme gehören zum Bereich der Kapazitätsplanung. Daher ist die Entwicklung präskriptiver Ansätze zur Lösung komplexer Probleme im Kapazitätsmanagement das Ziel dieser Dissertation. In drei inhaltlich abgeschlossenen Teilen werden neuartige präskriptive Ansätze konzipiert und auf realistische Kapazitätsplanungsprobleme angewendet. Im ersten Artikel, „Prescriptive Analytics for Flexible Capacity Management”, werden zwei präskriptive Verfahren entwickelt, und zwar weighted Sample Average Approximation (wSAA) und kernelized Empirical Risk Minimization (kERM), um ein komplexes, zweistufiges stochastisches Kapazitätsplanungsproblem zu lösen: Ein Logistikdienstleister sortiert täglich eintreffende Sendungen auf drei Sortierlinien, für die die wöchentliche Mitarbeiterkapazität geplant werden muss. Dieser Artikel ist der erste Beitrag, in dem ein kERM-Verfahren zur direkten Lösung eines komplexen Planungsproblems mit matrixwertiger Nachfrage und vektorwertiger Entscheidung entwickelt, eine Obergrenze für die erwarteten Kosten für nichtlineare, kernelbasierte Funktionen abgeleitet und die Universal Approximation Property bei Nutzung spezieller Kernelfunktionen gezeigt wird. Die Ergebnisse der numerischen Studie demonstrieren, dass präskriptive Verfahren im Vergleich mit klassischen Lösungsverfahren zu signifikant besseren Entscheidungen führen können und ihre Entscheidungsqualität bei Variation der exogenen Kostenparameter deutlich robuster ist. Im zweiten Artikel, „Prescriptive Analytics for a Multi-Shift Staffing Problem”, werden wSAA und kERM auf ein Planungsproblem der klassischen Warteschlangentheorie angewendet: Ein Dienstleister erhält über den Tag verteilt Aufträge, deren Anzahl und Zeitpunkt des Eintreffens unsicher sind, und muss die Mitarbeiterkapazität für zwei Schichten planen. Dieses Planungsproblem ist komplexer als die bisher mit präskriptiven Ansätzen gelösten Probleme: Auftragseingang und Bearbeitung werden als Wartesystem modelliert und die Nachfrage innerhalb einer Schicht folgt einem nicht stationären Prozess. Diese Komplexität wird mit zwei Näherungsmethoden bewältigt, sodass das Planungsproblem mit wSAA und kERM sowie dem neu entwickelten Optimization-Prediction-Verfahren gelöst werden kann. Die in diesem Artikel entwickelte Methode legt den Grundstein zur Lösung komplexer Warteschlangenmodelle mit präskriptiven Verfahren und schafft damit eine Verbindung zwischen den „Welten“ der Warteschlangentheorie und der präskriptiven Verfahren. Im dritten Artikel, „Explainable Subgradient Tree Boosting for Prescriptive Analytics in Operations Management”, wird ein neues präskriptives Verfahren zur Lösung der Planungsprobleme der ersten beiden Artikel entwickelt, das insbesondere durch die Erklärbarkeit der Entscheidungen attraktiv ist: Subgradient Tree Boosting (STB). Es kombiniert das erfolgreiche Gradient-Boosting-Verfahren aus dem ML mit SAA und verwendet Subgradienten, da die Zielfunktion von OR-Planungsproblemen häufig nicht differenzierbar ist. Die numerische Analyse zeigt, dass STB zu einer vergleichbaren Entscheidungsqualität wie wSAA und kERM führen kann, und dass die Kapazitätsentscheidungen in Beiträge einzelner Features zerlegt und damit erklärt werden können. Das STB-Verfahren ist damit nicht nur aufgrund seiner Entscheidungsqualität attraktiv für Entscheidungsträger, sondern insbesondere auch durch die inhärente Erklärbarkeit. Die in diesen drei Artikeln präsentierten Ergebnisse zeigen, dass die Nutzung präskriptiver Verfahren, wie wSAA, kERM und STB, bei der Lösung komplexer Planungsprobleme zu deutlich besseren Ergebnissen führen kann als der Einsatz klassischer Methoden, die Feature-Daten vernachlässigen oder auf einer parametrischen Verteilungsschätzung basieren. KW - Maschinelles Lernen KW - Operations Management KW - Entscheidungsunterstützung KW - Kapazitätsplanung KW - Prescriptive Analytics KW - Machine Learning KW - Explainability KW - Data-driven Operations Management KW - Capacity Management KW - Operations Management KW - Entscheidungsunterstützung Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-240423 ER - TY - THES A1 - Pfitzner, Christian T1 - Visual Human Body Weight Estimation with Focus on Clinical Applications T1 - Optische Körpergewichtsschätzung für medizinische Anwendungen N2 - It is the aim of this thesis to present a visual body weight estimation, which is suitable for medical applications. A typical scenario where the estimation of the body weight is essential, is the emergency treatment of stroke patients: In case of an ischemic stroke, the patient has to receive a body weight adapted drug, to solve a blood clot in a vessel. The accuracy of the estimated weight influences the outcome of the therapy directly. However, the treatment has to start as early as possible after the arrival at a trauma room, to provide sufficient treatment. Weighing a patient takes time, and the patient has to be moved. Furthermore, patients are often not able to communicate a value for their body weight due to their stroke symptoms. Therefore, it is state of the art that physicians guess the body weight. A patient receiving a too low dose has an increased risk that the blood clot does not dissolve and brain tissue is permanently damaged. Today, about one-third gets an insufficient dosage. In contrast to that, an overdose can cause bleedings and further complications. Physicians are aware of this issue, but a reliable alternative is missing. The thesis presents state-of-the-art principles and devices for the measurement and estimation of body weight in the context of medical applications. While scales are common and available at a hospital, the process of weighing takes too long and can hardly be integrated into the process of stroke treatment. Sensor systems and algorithms are presented in the section for related work and provide an overview of different approaches. The here presented system -- called Libra3D -- consists of a computer installed in a real trauma room, as well as visual sensors integrated into the ceiling. For the estimation of the body weight, the patient is on a stretcher which is placed in the field of view of the sensors. The three sensors -- two RGB-D and a thermal camera -- are calibrated intrinsically and extrinsically. Also, algorithms for sensor fusion are presented to align the data from all sensors which is the base for a reliable segmentation of the patient. A combination of state-of-the-art image and point cloud algorithms is used to localize the patient on the stretcher. The challenges in the scenario with the patient on the bed is the dynamic environment, including other people or medical devices in the field of view. After the successful segmentation, a set of hand-crafted features is extracted from the patient's point cloud. These features rely on geometric and statistical values and provide a robust input to a subsequent machine learning approach. The final estimation is done with a previously trained artificial neural network. The experiment section offers different configurations of the previously extracted feature vector. Additionally, the here presented approach is compared to state-of-the-art methods; the patient's own assessment, the physician's guess, and an anthropometric estimation. Besides the patient's own estimation, Libra3D outperforms all state-of-the-art estimation methods: 95 percent of all patients are estimated with a relative error of less than 10 percent to ground truth body weight. It takes only a minimal amount of time for the measurement, and the approach can easily be integrated into the treatment of stroke patients, while physicians are not hindered. Furthermore, the section for experiments demonstrates two additional applications: The extracted features can also be used to estimate the body weight of people standing, or even walking in front of a 3D camera. Also, it is possible to determine or classify the BMI of a subject on a stretcher. A potential application for this approach is the reduction of the radiation dose of patients being exposed to X-rays during a CT examination. During the time of this thesis, several data sets were recorded. These data sets contain the ground truth body weight, as well as the data from the sensors. They are available for the collaboration in the field of body weight estimation for medical applications. N2 - Diese Arbeit zeigt eine optische Körpergewichtsschätzung, welche für medizinische Anwendungen geeignet ist. Ein gängiges Szenario, in dem eine Gewichtsschätzung benötigt wird, ist die Notfallbehandlung von Schlaganfallpatienten: Falls ein ischämischer Schlaganfall vorliegt, erhält der Patient ein auf das Körpergewicht abgestimmtes Medikament, um einen Thrombus in einem Gefäß aufzulösen. Die Genauigkeit der Gewichtsschätzung hat direkten Einfluss auf den Erfolg der Behandlung. Hinzu kommt, dass die Behandlung so schnell wie möglich nach der Ankunft im Krankenhaus erfolgen muss, um eine erfolgreiche Behandlung zu garantieren. Das Wiegen eines Patienten ist zeitaufwändig und der Patient müsste hierfür bewegt werden. Des Weiteren können viele Patienten aufgrund des Schlaganfalls nicht ihr eigenes Gewicht mitteilen. Daher ist es heutzutage üblich, dass Ärzte das Gewicht schätzen. Erhält ein Patient eine zu geringe Dosis, steigt das Risiko, dass sich der Thrombus nicht auflöst und das Gehirngewebe dauerhaft geschädigt bleibt. Eine Überdosis kann dagegen zu Blutungen und weiteren Komplikationen führen. Ein Drittel der Patienten erhält heutzutage eine unzureichende Dosis. Ärzte sind sich dessen bewusst, aber derzeit gibt es kein alternatives Vorgehen. Diese Arbeit präsentiert Elemente und Geräte zur Messung und Schätzung des Körpergewichts, die im medizinischen Umfeld verwendet werden. Zwar sind Waagen im Krankenhaus üblich, aufgrund des engen Zeitfensters für die Behandlung können sie aber nur schlecht in den Behandlungsablauf von Schlaganfallpatienten integriert werden. Der Abschnitt zum Stand der Technik zeigt verschiedene Sensorsysteme und Algorithmen. Das hier gezeigte System -- genannt Libra3D -- besteht aus einem Computer im Behandlungsraum, sowie den in der Decke integrierten optischen Sensoren. Für die Gewichtsschätzung befindet sich der Patient auf einer Liege im Blickfeld der Sensoren. Die drei Sensoren -- zwei RGB-D- und einer Wärmebildkamera -- sind intrinsisch und extrinsisch kalibriert. Des Weiteren werden Algorithmen zur Sensorfusion vorgestellt, welche die Daten für eine erfolgreiche Segmentierung des Patienten zusammenführen. Eine Kombination aus verschiedenen gängigen Bildverarbeitungs- und Punktwolken-Algorithmen lokalisiert den Patienten auf der Liege. Die Herausforderung in diesem Szenario mit dem Patienten auf dem Bett sind ständige Veränderungen, darunter auch andere Personen oder medizinische Geräte im Sichtfeld. Nach der erfolgreichen Segmentierung werden Merkmale von der Punktwolke des Patienten extrahiert. Diese Merkmale beruhen auf geometrischen und statistischen Eigenschaften und bieten robuste Werte für das nachfolgende maschinelle Lernverfahren. Die Schätzung des Gewichts basiert letztlich auf einem zuvor trainierten künstlichen neuronalen Netz. Das Kapitel zu den Experimenten zeigt verschiedene Kombinationen von Werten aus dem Merkmalsvektor. Zusätzlich wird der Ansatz mit Methoden aus dem Stand der Technik verglichen: der Schätzung des Patienten, des Arztes, und einer anthropometrischen Schätzung. Bis auf die eigene Schätzung des Patienten übertrifft Libra3D hierbei alle anderen Methoden: 95 Prozent aller Schätzungen weisen einen relativen Fehler von weniger als 10 Prozent zum realen Körpergewicht auf. Dabei benötigt das System wenig Zeit für eine Messung und kann einfach in den Behandlungsablauf von Schlaganfallpatienten integriert werden, ohne Ärzte zu behindern. Des Weiteren zeigt der Abschnitt für Experimente zwei weitere Anwendungen: Die extrahierten Merkmale können dazu verwendet werden das Gewicht von stehenden und auch laufenden Personen zu schätzen, die sich vor einer 3D-Kamera befinden. Darüber hinaus ist es auch möglich den BMI von Patienten auf einer Liege zu bestimmen. Diese kann die Strahlenexposition bei CT-Untersuchungen beispielsweise verringern. Während dieser Dissertation sind einige Datensätze entstanden. Sie enthalten das reale Gewicht, sowie die dazugehörigen Sensordaten. Die Datensätze sind für die Zusammenarbeit im Bereich der Körpergewichtsschätzung für medizinische Anwendungen verfügbar. T3 - Forschungsberichte in der Robotik = Research Notes in Robotics - 18 KW - Punktwolke KW - Maschinelles Lernen KW - Schlaganfall KW - Körpergewicht KW - Bildverarbeitung KW - 3D Point Cloud Processing KW - Image Processing KW - Stroke KW - Human Body Weight KW - Kinect KW - Machine Learning KW - Sensor Fusion KW - Segmentation KW - Perception Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-174842 SN - 978-3-945459-27-0 (online) ER - TY - THES A1 - Winkler, Marco T1 - On the Role of Triadic Substructures in Complex Networks T1 - Über die Bedeutung von Dreiecksstrukturen in komplexen Netzwerken N2 - In the course of the growth of the Internet and due to increasing availability of data, over the last two decades, the field of network science has established itself as an own area of research. With quantitative scientists from computer science, mathematics, and physics working on datasets from biology, economics, sociology, political sciences, and many others, network science serves as a paradigm for interdisciplinary research. One of the major goals in network science is to unravel the relationship between topological graph structure and a network’s function. As evidence suggests, systems from the same fields, i.e. with similar function, tend to exhibit similar structure. However, it is still vague whether a similar graph structure automatically implies likewise function. This dissertation aims at helping to bridge this gap, while particularly focusing on the role of triadic structures. After a general introduction to the main concepts of network science, existing work devoted to the relevance of triadic substructures is reviewed. A major challenge in modeling triadic structure is the fact that not all three-node subgraphs can be specified independently of each other, as pairs of nodes may participate in multiple of those triadic subgraphs. In order to overcome this obstacle, we suggest a novel class of generative network models based on so called Steiner triple systems. The latter are partitions of a graph’s vertices into pair-disjoint triples (Steiner triples). Thus, the configurations on Steiner triples can be specified independently of each other without overdetermining the network’s link structure. Subsequently, we investigate the most basic realization of this new class of models. We call it the triadic random graph model (TRGM). The TRGM is parametrized by a probability distribution over all possible triadic subgraph patterns. In order to generate a network instantiation of the model, for all Steiner triples in the system, a pattern is drawn from the distribution and adjusted randomly on the Steiner triple. We calculate the degree distribution of the TRGM analytically and find it to be similar to a Poissonian distribution. Furthermore, it is shown that TRGMs possess non-trivial triadic structure. We discover inevitable correlations in the abundance of certain triadic subgraph patterns which should be taken into account when attributing functional relevance to particular motifs – patterns which occur significantly more frequently than expected at random. Beyond, the strong impact of the probability distributions on the Steiner triples on the occurrence of triadic subgraphs over the whole network is demonstrated. This interdependence allows us to design ensembles of networks with predefined triadic substructure. Hence, TRGMs help to overcome the lack of generative models needed for assessing the relevance of triadic structure. We further investigate whether motifs occur homogeneously or heterogeneously distributed over a graph. Therefore, we study triadic subgraph structures in each node’s neighborhood individually. In order to quantitatively measure structure from an individual node’s perspective, we introduce an algorithm for node-specific pattern mining for both directed unsigned, and undirected signed networks. Analyzing real-world datasets, we find that there are networks in which motifs are distributed highly heterogeneously, bound to the proximity of only very few nodes. Moreover, we observe indication for the potential sensitivity of biological systems to a targeted removal of these critical vertices. In addition, we study whole graphs with respect to the homogeneity and homophily of their node-specific triadic structure. The former describes the similarity of subgraph distributions in the neighborhoods of individual vertices. The latter quantifies whether connected vertices are structurally more similar than non-connected ones. We discover these features to be characteristic for the networks’ origins. Moreover, clustering the vertices of graphs regarding their triadic structure, we investigate structural groups in the neural network of C. elegans, the international airport-connection network, and the global network of diplomatic sentiments between countries. For the latter we find evidence for the instability of triangles considered socially unbalanced according to sociological theories. Finally, we utilize our TRGM to explore ensembles of networks with similar triadic substructure in terms of the evolution of dynamical processes acting on their nodes. Focusing on oscillators, coupled along the graphs’ edges, we observe that certain triad motifs impose a clear signature on the systems’ dynamics, even when embedded in a larger network structure. N2 - Im Zuge des Wachstums des Internets und der Verfügbarkeit nie da gewesener Datenmengen, hat sich, während der letzten beiden Jahrzehnte, die Netzwerkwissenschaft zu einer eigenständigen Forschungsrichtung entwickelt. Mit Wissenschaftlern aus quantitativen Feldern wie der Informatik, Mathematik und Physik, die Datensätze aus Biologie, den Wirtschaftswissenschaften, Soziologie, Politikwissenschaft und vielen weiteren Anwendungsgebieten untersuchen, stellt die Netzwerkwissenschaft ein Paradebeispiel interdisziplinärer Forschung dar. Eines der grundlegenden Ziele der Netzwerkwissenschaft ist es, den Zusammenhang zwischen der topologischen Struktur und der Funktion von Netzwerken herauszufinden. Es gibt zahlreiche Hinweise, dass Netz-werke aus den gleichen Bereichen, d.h. Systeme mit ähnlicher Funktion, auch ähnliche Graphstrukturen aufweisen. Es ist allerdings nach wie vor unklar, ob eine ähnliche Graphstruktur generell zu gleicher Funktionsweise führt. Es ist das Ziel der vorliegenden Dissertation, zur Klärung dieser Frage beizutragen. Das Hauptaugenmerk wird hierbei auf der Rolle von Dreiecksstrukturen liegen. Nach einer allgemeinen Einführung der wichtigsten Grundlagen der Theorie komplexer Netzwerke, wird eine Übersicht über existierende Arbeiten zur Bedeutung von Dreiecksstrukturen gegeben. Eine der größten Herausforderungen bei der Modellierung triadischer Strukturen ist die Tatsache, dass nicht alle Dreiecksbeziehungen in einem Graphen unabhängig voneinander bestimmt werden können, da zwei Knoten an mehreren solcher Dreiecksbeziehungen beteiligt sein können. Um dieses Problem zu lösen, führen wir, basierend auf sogenannten Steiner-Tripel-Systemen, eine neue Klasse generativer Netzwerkmodelle ein. Steiner-Tripel-Systeme sind Zerlegungen der Knoten eines Graphen in paarfremde Tripel (Steiner-Tripel). Daher können die Konfigurationen auf Steiner-Tripeln unabhängig voneinander gewählt werden, ohne dass dies zu einer Überbestimmung der Netzwerkstruktur führen würde. Anschließend untersuchen wir die grundlegendste Realisierung dieser neuen Klasse von Netzwerkmodellen, die wir das triadische Zufallsgraph-Modell (engl. triadic random graph model, TRGM) nennen. TRGMs werden durch eine Wahrscheinlichkeitsverteilung über alle möglichen Dreiecksstrukturen parametrisiert. Um ein konkretes Netzwerk zu erzeugen wird für jedes Steiner-Tripel eine Dreiecksstruktur gemäß der Wahrscheinlichkeitsverteilung gezogen und zufällig auf dem Tripel orientiert. Wir berechnen die Knotengradverteilung des TRGM analytisch und finden heraus, dass diese einer Poissonverteilung ähnelt. Des Weiteren wird gezeigt, dass TRGMs nichttriviale Dreiecksstrukturen aufweisen. Außerdem finden wir unvermeidliche Korrelationen im Auftreten bestimmter Subgraphen, derer man sich bewusst sein sollte. Insbesondere wenn es darum geht, die Bedeutung sogenannter Motive (Strukturen, die signifikant häufiger als zufällig erwartet auftreten) zu beurteilen. Darüber hinaus wird der starke Einfluss der Wahrscheinlichkeitsverteilung auf den Steiner-Tripeln, auf die generelle Dreiecksstruktur der erzeugten Netzwerke gezeigt. Diese Abhängigkeit ermöglicht es, Netzwerkensembles mit vorgegebener Dreiecksstruktur zu konzipieren. Daher helfen TRGMs dabei, den bestehenden Mangel an generativen Netzwerkmodellen, zur Beurteilung der Bedeutung triadischer Strukturen in Graphen, zu beheben. Es wird ferner untersucht, wie homogen Motive räumlich über Graphstrukturen verteilt sind. Zu diesem Zweck untersuchen wir das Auftreten von Dreiecksstrukturen in der Umgebung jedes Knotens separat. Um die Struktur individueller Knoten quantitativ erfassen zu können, führen wir einen Algorithmus zur knotenspezifischen Musterauswertung (node-specific pattern mining) ein, der sowohl auf gerichtete, als auch auf Graphen mit positiven und negativen Kanten angewendet werden kann. Bei der Analyse realer Datensätze beobachten wir, dass Motive in einigen Netzen hochgradig heterogen verteilt, und auf die Umgebung einiger, weniger Knoten beschränkt sind. Darüber hinaus finden wir Hinweise auf die mögliche Fehleranfälligkeit biologischer Systeme auf ein gezieltes Entfernen ebendieser Knoten. Des Weiteren studieren wir ganze Graphen bezüglich der Homogenität und Homophilie ihrer knotenspezifischen Dreiecksmuster. Erstere beschreibt die Ähnlichkeit der lokalen Dreiecksstrukturen zwischen verschiedenen Knoten. Letztere gibt an, ob sich verbundene Knoten bezüglich ihrer Dreiecksstruktur ähnlicher sind, als nicht verbundene Knoten. Wir stellen fest, dass diese Eigenschaften charakteristisch für die Herkunft der jeweiligen Netzwerke sind. Darüber hinaus gruppieren wir die Knoten verschiedener Systeme bezüglich der Ähnlichkeit ihrer lokalen Dreiecksstrukturen. Hierzu untersuchen wir das neuronale Netz von C. elegans, das internationale Flugverbindungsnetzwerk, sowie das Netzwerk internationaler Beziehungen zwischen Staaten. In Letzterem finden wir Hinweise darauf, dass Dreieckskonfigurationen, die nach soziologischen Theorien als unbalanciert gelten, besonders instabil sind. Schließlich verwenden wir unser TRGM, um Netzwerkensembles mit ähnlicher Dreiecksstruktur bezüglich der Eigenschaften dynamischer Prozesse, die auf ihren Knoten ablaufen, zu untersuchen. Wir konzentrieren uns auf Oszillatoren, die entlang der Kanten der Graphen miteinander gekoppelt sind. Hierbei beobachten wir, dass bestimmte Dreiecksmotive charakteristische Merkmale im dynamischen Verhalten der Systeme hinterlassen. Dies ist auch der Fall, wenn die Motive in eine größere Netzwerkstruktur eingebettet sind. KW - Netzwerk KW - Komplexes System KW - Substruktur KW - Dreieck KW - Networks KW - Complex Systems KW - Statistics KW - Machine Learning KW - Biological Networks KW - Statistische Physik KW - Statistische Mechanik KW - Data Mining KW - Maschinelles Lernen KW - Graphentheorie Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-116022 SN - 978-3-7375-5654-5 PB - epubli GmbH CY - Berlin ER -