TY - THES A1 - Stein, Nikolai Werner T1 - Advanced Analytics in Operations Management and Information Systems: Methods and Applications T1 - Advanced Analytics im Operations Management und Information Systems: Methoden und Anwendungen N2 - Die digitale Transformation der Gesellschaft birgt enorme Potenziale für Unternehmen aus allen Sektoren. Diese verfügen aufgrund neuer Datenquellen, wachsender Rechenleistung und verbesserter Konnektivität über rasant steigende Datenmengen. Um im digitalen Wandel zu bestehen und Wettbewerbsvorteile in Bezug auf Effizienz und Effektivität heben zu können müssen Unternehmen die verfügbaren Daten nutzen und datengetriebene Entscheidungsprozesse etablieren. Dennoch verwendet die Mehrheit der Firmen lediglich Tools aus dem Bereich „descriptive analytics“ und nur ein kleiner Teil der Unternehmen macht bereits heute von den Möglichkeiten der „predictive analytics“ und „prescriptive analytics“ Gebrauch. Ziel dieser Dissertation, die aus vier inhaltlich abgeschlossenen Teilen besteht, ist es, Einsatzmöglichkeiten von „prescriptive analytics“ zu identifizieren. Da prädiktive Modelle eine wesentliche Voraussetzung für „prescriptive analytics“ sind, thematisieren die ersten beiden Teile dieser Arbeit Verfahren aus dem Bereich „predictive analytics.“ Ausgehend von Verfahren des maschinellen Lernens wird zunächst die Entwicklung eines prädiktiven Modells am Beispiel der Kapazitäts- und Personalplanung bei einem IT-Beratungsunternehmen veranschaulicht. Im Anschluss wird eine Toolbox für Data Science Anwendungen entwickelt. Diese stellt Entscheidungsträgern Richtlinien und bewährte Verfahren für die Modellierung, das Feature Engineering und die Modellinterpretation zur Verfügung. Der Einsatz der Toolbox wird am Beispiel von Daten eines großen deutschen Industrieunternehmens veranschaulicht. Verbesserten Prognosen, die von leistungsfähigen Vorhersagemodellen bereitgestellt werden, erlauben es Entscheidungsträgern in einigen Situationen bessere Entscheidungen zu treffen und auf diese Weise einen Mehrwert zu generieren. In vielen komplexen Entscheidungssituationen ist die Ableitungen von besseren Politiken aus zur Verfügung stehenden Prognosen jedoch oft nicht trivial und erfordert die Entwicklung neuer Planungsalgorithmen. Aus diesem Grund fokussieren sich die letzten beiden Teile dieser Arbeit auf Verfahren aus dem Bereich „prescriptive analytics“. Hierzu wird zunächst analysiert, wie die Vorhersagen prädiktiver Modelle in präskriptive Politiken zur Lösung eines „Optimal Searcher Path Problem“ übersetzt werden können. Trotz beeindruckender Fortschritte in der Forschung im Bereich künstlicher Intelligenz sind die Vorhersagen prädiktiver Modelle auch heute noch mit einer gewissen Unsicherheit behaftet. Der letzte Teil dieser Arbeit schlägt einen präskriptiven Ansatz vor, der diese Unsicherheit berücksichtigt. Insbesondere wird ein datengetriebenes Verfahren für die Einsatzplanung im Außendienst entwickelt. Dieser Ansatz integriert Vorhersagen bezüglich der Erfolgswahrscheinlichkeiten und die Modellqualität des entsprechenden Vorhersagemodells in ein „Team Orienteering Problem.“ N2 - The digital transformation of business and society presents enormous potentials for companies across all sectors. Fueled by massive advances in data generation, computing power, and connectivity, modern organizations have access to gigantic amounts of data. Companies seek to establish data-driven decision cultures to leverage competitive advantages in terms of efficiency and effectiveness. While most companies focus on descriptive tools such as reporting, dashboards, and advanced visualization, only a small fraction already leverages advanced analytics (i.e., predictive and prescriptive analytics) to foster data-driven decision-making today. Therefore, this thesis set out to investigate potential opportunities to leverage prescriptive analytics in four different independent parts. As predictive models are an essential prerequisite for prescriptive analytics, the first two parts of this work focus on predictive analytics. Building on state-of-the-art machine learning techniques, we showcase the development of a predictive model in the context of capacity planning and staffing at an IT consulting company. Subsequently, we focus on predictive analytics applications in the manufacturing sector. More specifically, we present a data science toolbox providing guidelines and best practices for modeling, feature engineering, and model interpretation to manufacturing decision-makers. We showcase the application of this toolbox on a large data-set from a German manufacturing company. Merely using the improved forecasts provided by powerful predictive models enables decision-makers to generate additional business value in some situations. However, many complex tasks require elaborate operational planning procedures. Here, transforming additional information into valuable actions requires new planning algorithms. Therefore, the latter two parts of this thesis focus on prescriptive analytics. To this end, we analyze how prescriptive analytics can be utilized to determine policies for an optimal searcher path problem based on predictive models. While rapid advances in artificial intelligence research boost the predictive power of machine learning models, a model uncertainty remains in most settings. The last part of this work proposes a prescriptive approach that accounts for the fact that predictions are imperfect and that the arising uncertainty needs to be considered. More specifically, it presents a data-driven approach to sales-force scheduling. Based on a large data set, a model to predictive the benefit of additional sales effort is trained. Subsequently, the predictions, as well as the prediction quality, are embedded into the underlying team orienteering problem to determine optimized schedules. KW - Operations Management KW - Managementinformationssystem KW - Entscheidungsunterstützung KW - Maschinelles Lernen KW - Big Data KW - Advanced Analytics KW - Prescriptive Analytics KW - Predictive Analytics KW - Entscheidungsunterstützungssystem KW - Wirtschaftsinformatik KW - Tourenplanung Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-192668 ER - TY - THES A1 - Kreikenbohm, Annika Franziska Eleonore T1 - Classifying the high-energy sky with spectral timing methods T1 - Klassifizierung des Hochenergiehimmels mittels spektralen und Zeitreihen-Methoden N2 - Active galactic nuclei (AGN) are among the brightest and most frequent sources on the extragalactic X-ray and gamma-ray sky. Their central supermassive blackhole generates an enormous luminostiy through accretion of the surrounding gas. A few AGN harbor highly collimated, powerful jets in which are observed across the entire electromagnetic spectrum. If their jet axis is seen in a small angle to our line-of-sight (these objects are then called blazars) jet emission can outshine any other emission component from the system. Synchrotron emission from electrons and positrons clearly prove the existence of a relativistic leptonic component in the jet plasma. But until today, it is still an open question whether heavier particles, especially protons, are accelerated as well. If this is the case, AGN would be prime candidates for extragalactic PeV neutrino sources that are observed on Earth. Characteristic signatures for protons can be hidden in the variable high-energy emission of these objects. In this thesis I investigated the broadband emission, particularly the high-energy X-ray and gamma-ray emission of jetted AGN to address open questions regarding the particle acceleration and particle content of AGN jets, or the evolutionary state of the AGN itself. For this purpose I analyzed various multiwavelength observations from optical to gamma-rays over a period of time using a combination of state-of-the-art spectroscopy and timing analysis. By nature, AGN are highly variable. Time-resolved spectral analysis provided a new dynamic view of these sources which helped to determine distinct emission processes that are difficult to disentangle from spectral or timing methods alone. Firstly, this thesis tackles the problem of source classification in order to facilitate the search for interesting sources in large data archives and characterize new transient sources. I use spectral and timing analysis methods and supervised machine learning algorithms to design an automated source classification pipeline. The test and training sample were based on the third XMM-Newton point source catalog (3XMM-DR6). The set of input features for the machine learning algorithm was derived from an automated spectral modeling of all sources in the 3XMM-DR6, summing up to 137200 individual detections. The spectral features were complemented by results of a basic timing analysis as well as multiwavelength information provided by catalog cross-matches. The training of the algorithm and application to a test sample showed that the definition of the training sample was crucial: Despite oversampling minority source types with synthetic data to balance out the training sample, the algorithm preferably predicted majority source types for unclassified objects. In general, the training process showed that the combination of spectral, timing and multiwavelength features performed best with the lowest misclassification rate of \\sim2.4\\%. The methods of time-resolved spectroscopy was then used in two studies to investigate the properties of two individual AGN, Mrk 421 and PKS 2004-447, in detail. Both objects belong to the class of gamma-ray emitting AGN. A very elusive sub-class are gamma-ray emitting Narrow Line Seyfert 1 (gNLS1) galaxies. These sources have been discovered as gamma-ray sources only recently in 2010 and a connection to young radio galaxies especially compact steep spectrum (CSS) radio sources has been proposed. The only gNLS1 on the Southern Hemisphere so far is PKS2004-447 which lies at the lower end of the luminosity distribution of gNLS1. The source is part of the TANAMI VLBI program and is regularly monitored at radio frequencies. In this thesis, I presented and analyzed data from a dedicated multiwavelength campaign of PKS 2004-447 which I and my collaborators performed during 2012 and which was complemented by individual observations between 2013 and 2016. I focussed on the detailed analysis of the X-ray emission and a first analysis of its broadband spectrum from radio to gamma-rays. Thanks to the dynamic SED I could show that earlier studies misinterpreted the optical spectrum of the source which had led to an underestimation of the high-energy emission and had ignited a discussion on the source class. I show that the overall spectral properties are consistent with dominating jet emission comprised of synchrotron radiation and inverse Compton scattering from accelerated leptons. The broadband emission is very similar to typical examples of a certain type of blazars (flat-spectrum radio quasars) and does not present any unusual properties in comparison. Interestingly, the VLBI data showed a compact jet structure and a steep radio spectrum consistent with a compact steep spectrum source. This classified PKS 2004-447 as a young radio galaxy, in which the jet is still developing. The investigation of Mrk 421 introduced the blazar monitoring program which I and collaborator have started in 2014. By observing a blazar simultaneously from optical, X-ray and gamma-ray bands during a VHE outbursts, the program aims at providing extraordinary data sets to allow for the generation of a series of dynamical SEDs of high spectral and temporal resolution. The program makes use of the dense VHE monitoring by the FACT telescope. So far, there are three sources in our sample that we have been monitoring since 2014. I presented the data and the first analysis of one of the brightest and most variable blazar, Mrk 421, which had a moderate outbreak in 2015 and triggered our program for the first time. With spectral timing analysis, I confirmed a tight correlation between the X-ray and TeV energy bands, which indicated that these jet emission components are causally connected. I discovered that the variations of the optical band were both correlated and anti-correlated with the high-energy emission, which suggested an independent emission component. Furthermore, the dynamic SEDs showed two different flaring behaviors, which differed in the presence or lack of a peak shift of the low-energy emission hump. These results further supported the hypothesis that more than one emission region contributed to the broadband emission of Mrk 421 during the observations. Overall,the studies presented in this thesis demonstrated that time-resolved spectroscopy is a powerful tool to classify both source types and emission processes of astronomical objects, especially relativistic jets in AGN, and thus provide a deeper understanding and new insights of their physics and properties. N2 - Aktive Galaxienkerne (active galactic nuclei, AGN) gehören zu den hellsten und häufigsten Quellen am extragalaktischen Röntgen- und Gammastrahlenhimmel. Das zentrale supermassive Schwarze Loch erzeugt durch Akkretion des umgebenden Gases eine enorme Leuchtkraft. Einige AGN beherbergen zudem stark kollimierte, leuchtstarke Jets die im gesamten elektromagnetischen Spektrum beobachtet werden. Betrachtet man Jets unter einem kleinen Winkel zu unserer Sichtlinie (sog. Blazare), kann die Jetemission die anderen Strahlungskomponenten des Systems überstrahlen. Die Synchrotronemission von relativistischen Elektronen und Positronen beweist eindeutig die Existenz einer leptonischen Plasmakomponente in Jets. Bis heute aber ist es offen, ob auch schwerere Teilchen, insbesondere Protonen, beschleunigt werden können. Wenn dies der Fall ist, wären AGN vielversprechende Quellen für extragalaktische PeV-Neutrinos, die auf der Erde beobachtet werden. Charakteristische Merkmale von Protonen könnten in der variablen hochenergetischen Emission dieser Objekte verborgen sein. In dieser Arbeit untersuchte ich daher die Breitbandemission, insbesondere die hochenergetische Röntgen- und Gammastrahlung, von AGN mit Jets, um verschiedene offene Fragen bezüglich Jets in AGN zu adressieren. Thematisiert werden sowohl die Teilchenbeschleunigung, wie auch die Plasmakomposition von Jets, oder der evolutionäre Zustand eines AGN selbst. Zu diesem Zweck analysierte ich mittels einer Kombination aus hochmodernen Methoden der Spektroskopie und Zeitreihenanalyse verschiedene Wellenlängenbeobachtungen, die das Breitbandspektrum von optischen bis Gammastrahlen zu verschiedenen Zeitpunkten abdeckten. Von Natur aus sind AGN sehr variabel. Die Kombination der zeitaufgelöster Spektroskopie lieferte somit eine neue dynamische Sicht auf diese Quellen, die dazu beitrug, unterschiedliche Emissionsprozesse zu bestimmen, die sich nur schwer von getrennten Spektral- oder Zeitreihen-Verfahren unterscheiden lassen. Diese Arbeit behandelt zunächst das Problem der Quellenklassifikation, um die Suche nach interessanten Quellen in großen Datenarchiven zu erleichtern und neue variable Quellen zu charakterisieren. Ich nutzte die Zeit- und Spektralanalyse Methoden sowie überwachte Machine-Learning Algorithmen, um ein automatisiertes Verfahren zur Quellklassifizierung zu entwerfen. Das Auswahl der Test- und Trainingsbeispiele basierte auf dem dritten XMM-Newton Punktquellenkatalog (3XMM-DR6). Die Attribute für den maschinellen Lernalgorithmus wurden aus einer automatisierten Spektralmodellierung aller Quellen in dem 3XMM-DR6 definiert, die über 137200 individuelle Detektionen umfasst. Die spektralen Eigenschaften wurden durch Ergebnisse einer einfachen Zeitreihenanalyse sowie durch Multiwellenlängeninformationen ergänzt. Letztere ergaben sich aus den Abgleichen verschiedener Quellkataloge. Das Trainieren des Algorithmus und die Anwendung auf die Testquellen zeigte, dass die Definition der Trainingsquellen für die Vorhersage von Quellklassen unbekannter Quellen entscheidend war. Obwohl das Trainingsset mittels der Generierung von synthetischen Daten von Minderheitsquellklassen ausbalanciert wurde, prognostizierte der Algorithmus bevorzugt jene Quellentypen für nicht klassifizierte Objekte, die am häufigsten im ursprünglichen Trainingsset vorkamen. Im Allgemeinen zeigte der Trainingsprozess, dass die Kombination von Spektral-, Zeitreihen- und Multiwellenlängenattributen bei der Klassifizierung einer großen Menge von unbekannten Objekten mit der niedrigsten Fehlklassifizierungsrate von \\sim2.4\\% am besten war. Die zeitaufgelöste Spektroskopie wurde in zwei zusätzlichen Studien an einzelnen außergewöhnlichen Quellen, Mrk 421 und PKS 2004-447, benutzt, um deren Eigenschaften im Detail zu untersuchen. Beide Objekte gehören zu der Klasse von AGN, die Gammastrahlung emittieren. Eine sehr schwer fassbare Unterklasse sind sogenannte $\gamma$-emittierende Narrow Line Seyfert 1 (gNLS1) Galaxien. Gammastrahlung dieser Quellen wurden erst im Jahr 2010 entdeckt. Man vermutet eine Verbindung zu jungen Radiogalaxien, insbesondere zu kompakten Radioquellen mit einem steilen Radiospektrum (sog. Compact Steep Spectrum sources, CSS). Die bisher einzige bestätigte gNLS1 auf der südlichen Hemisphäre ist PKS 2004-447, die am unteren Ende der Helligkeitsverteilung von gNLS1 liegt. Die Quelle ist Teil des TANAMI VLBI-Programms und wird regelmäßig im Radiobereich beobachtet. In dieser Dissertation präsentiere ich Ergebnisse einer Multiwellenlängen-Kampagne von PKS 2004-447, die ich und meine Kollegen 2012 durchgeführt haben und die durch weitere Einzelbeobachtungen zwischen 2013 und 2016 ergänzt wurde. Ich konzentrierte mich auf die detaillierte Analyse der Röntgenemission und eine erste Analyse der dynamischen Multiwellenlängen Spektralen Energieverteilung (spectral energy distribution, SED) von Radio bis Gammastrahlung. Dank der dynamischen SED konnte ich zeigen, dass frühere Studien das optische Spektrum der Quelle falsch interpretierten, was zu einer Unterschätzung der hochenergetischen Emission führte und eine Diskussion über die Quellklasse entfachte. In meiner Studie zeigte ich, dass die gesamten spektralen Eigenschaften konsistent durch Jetemission erklärt werden kann, die Synchrotronstrahlung und Inverse Comptonstreuung von beschleunigten Leptonen umfasst. Die Breitbandemission ist typischen Exemplaren von Flachspektrum-Radio-Quasaren sehr ähnlich und weist im Vergleich keine ungewöhnlichen Eigenschaften auf. Interessanterweise zeigten die hochaufgelöste Radiobeobachtungen eine kompakte Jet-Struktur und ein steiles Radiospektrum, das mit den Eigenschaften von kompakten Quellen mit steilem Radiospektrum (compact steep spectrum sources, CSS sources) verträglich ist. Dies klassifiziert PKS 2004-447 als junge Radiogalaxie, in der sich der Jet noch entwickelt. Die Untersuchung von Mrk 421 führt das Blazar-Monitoring-Program ein, das ich und meine Mitarbeiter 2014 begonnen haben. Dabei werden Blazare während eines Strahlungsausbruchs im TeV Energieband gleichzeitig in den optischen, Röntgen- und Gammastrahlenbändern beobachtet. Das Ziel des Programms ist die Erzeugung von dynamischen SEDs von hoher spektraler und zeitlicher Auflösung zu ermöglichen. Das Programm nutzt dafür die dichte Überwachung von Blazaren im TeV Bereich durch das FACT-Teleskop. Seit 2014 sind drei markante Blazare Teil unseres Programms. 2015 zeigte eine unserer beobachteten Quellen, Mrk 421, einen moderaten Ausbruch im TeV Band und löste damit unser Programm zum ersten Mal aus. In dieser Arbeit habe ich unsere Beobachtungen im Optischen bis TeV Bereich dieser Quelle benutzt um eine erste zeitaufgelöste Spektroskopie der dynamischen SED dieser Quelle vorzunehmen. Die Analyse der Flussvariabilität in unterschiedlichen Energiebändern bestätigte eine enge Korrelation zwischen der Röntgen- und TeV-Emission. Dies deutet darauf hin, dass diese Strahlungskomponenten im Jet kausal verknüpft sind. Ich entdeckte, dass die Helligkeitsvariationen im optischen Band scheinbar sowohl korreliert als auch antikorreliert mit der Strahlung im Röntgen- und Gammaband waren, was auf eine unabhängige Emissionskomponente hinwies. Darüber hinaus zeigten die dynamischen SEDs zwei unterschiedliche Verhalten bei Strahlungsausbrüchen, die sich im Vorhandensein oder Fehlen einer Verschiebung des niederenergetischen Emissionsmaximums unterschieden. Diese Ergebnisse unterstützen die Hypothese, dass während der Beobachtungen von Mrk 421 mehr als eine Emissionsregion zu dessen Breitbandemission beigetragen haben. Die Studien in dieser Arbeit zeigen, dass die zeitaufgelöste Spektroskopie ein leistungsfähiges Werkzeug ist, um sowohl Quellentypen als auch die Emissionsprozesse einzelner Quellen zu klassifizieren und so ein tieferes Verständnis und neue Einblicke in die Physik und Eigenschaften astronomischer Objekte, insbesondere relativistischer Jets in AGN zu ermöglichen. KW - Astronomie KW - Astroteilchenphysik KW - Röntgenastronomie KW - Maschinelles Lernen KW - Multiwavelength Astronomy KW - High-energy astrophysics Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-192054 ER - TY - THES A1 - Niebler, Thomas T1 - Extracting and Learning Semantics from Social Web Data T1 - Extraktion und Lernen von Semantik aus Social Web-Daten N2 - Making machines understand natural language is a dream of mankind that existed since a very long time. Early attempts at programming machines to converse with humans in a supposedly intelligent way with humans relied on phrase lists and simple keyword matching. However, such approaches cannot provide semantically adequate answers, as they do not consider the specific meaning of the conversation. Thus, if we want to enable machines to actually understand language, we need to be able to access semantically relevant background knowledge. For this, it is possible to query so-called ontologies, which are large networks containing knowledge about real-world entities and their semantic relations. However, creating such ontologies is a tedious task, as often extensive expert knowledge is required. Thus, we need to find ways to automatically construct and update ontologies that fit human intuition of semantics and semantic relations. More specifically, we need to determine semantic entities and find relations between them. While this is usually done on large corpora of unstructured text, previous work has shown that we can at least facilitate the first issue of extracting entities by considering special data such as tagging data or human navigational paths. Here, we do not need to detect the actual semantic entities, as they are already provided because of the way those data are collected. Thus we can mainly focus on the problem of assessing the degree of semantic relatedness between tags or web pages. However, there exist several issues which need to be overcome, if we want to approximate human intuition of semantic relatedness. For this, it is necessary to represent words and concepts in a way that allows easy and highly precise semantic characterization. This also largely depends on the quality of data from which these representations are constructed. In this thesis, we extract semantic information from both tagging data created by users of social tagging systems and human navigation data in different semantic-driven social web systems. Our main goal is to construct high quality and robust vector representations of words which can the be used to measure the relatedness of semantic concepts. First, we show that navigation in the social media systems Wikipedia and BibSonomy is driven by a semantic component. After this, we discuss and extend methods to model the semantic information in tagging data as low-dimensional vectors. Furthermore, we show that tagging pragmatics influences different facets of tagging semantics. We then investigate the usefulness of human navigational paths in several different settings on Wikipedia and BibSonomy for measuring semantic relatedness. Finally, we propose a metric-learning based algorithm in adapt pre-trained word embeddings to datasets containing human judgment of semantic relatedness. This work contributes to the field of studying semantic relatedness between words by proposing methods to extract semantic relatedness from web navigation, learn highquality and low-dimensional word representations from tagging data, and to learn semantic relatedness from any kind of vector representation by exploiting human feedback. Applications first and foremest lie in ontology learning for the Semantic Web, but also semantic search or query expansion. N2 - Einer der großen Träume der Menschheit ist es, Maschinen dazu zu bringen, natürliche Sprache zu verstehen. Frühe Versuche, Computer dahingehend zu programmieren, dass sie mit Menschen vermeintlich intelligente Konversationen führen können, basierten hauptsächlich auf Phrasensammlungen und einfachen Stichwortabgleichen. Solche Ansätze sind allerdings nicht in der Lage, inhaltlich adäquate Antworten zu liefern, da der tatsächliche Inhalt der Konversation nicht erfasst werden kann. Folgerichtig ist es notwendig, dass Maschinen auf semantisch relevantes Hintergrundwissen zugreifen können, um diesen Inhalt zu verstehen. Solches Wissen ist beispielsweise in Ontologien vorhanden. Ontologien sind große Datenbanken von vernetztem Wissen über Objekte und Gegenstände der echten Welt sowie über deren semantische Beziehungen. Das Erstellen solcher Ontologien ist eine sehr kostspielige und aufwändige Aufgabe, da oft tiefgreifendes Expertenwissen benötigt wird. Wir müssen also Wege finden, um Ontologien automatisch zu erstellen und aktuell zu halten, und zwar in einer Art und Weise, dass dies auch menschlichem Empfinden von Semantik und semantischer Ähnlichkeit entspricht. Genauer gesagt ist es notwendig, semantische Entitäten und deren Beziehungen zu bestimmen. Während solches Wissen üblicherweise aus Textkorpora extrahiert wird, ist es möglich, zumindest das erste Problem - semantische Entitäten zu bestimmen - durch Benutzung spezieller Datensätze zu umgehen, wie zum Beispiel Tagging- oder Navigationsdaten. In diesen Arten von Datensätzen ist es nicht notwendig, Entitäten zu extrahieren, da sie bereits aufgrund inhärenter Eigenschaften bei der Datenakquise vorhanden sind. Wir können uns also hauptsächlich auf die Bestimmung von semantischen Relationen und deren Intensität fokussieren. Trotzdem müssen hier noch einige Hindernisse überwunden werden. Beispielsweise ist es notwendig, Repräsentationen für semantische Entitäten zu finden, so dass es möglich ist, sie einfach und semantisch hochpräzise zu charakterisieren. Dies hängt allerdings auch erheblich von der Qualität der Daten ab, aus denen diese Repräsentationen konstruiert werden. In der vorliegenden Arbeit extrahieren wir semantische Informationen sowohl aus Taggingdaten, von Benutzern sozialer Taggingsysteme erzeugt, als auch aus Navigationsdaten von Benutzern semantikgetriebener Social Media-Systeme. Das Hauptziel dieser Arbeit ist es, hochqualitative und robuste Vektordarstellungen von Worten zu konstruieren, die dann dazu benutzt werden können, die semantische Ähnlichkeit von Konzepten zu bestimmen. Als erstes zeigen wir, dass Navigation in Social Media Systemen unter anderem durch eine semantische Komponente getrieben wird. Danach diskutieren und erweitern wir Methoden, um die semantische Information in Taggingdaten als niedrigdimensionale sogenannte “Embeddings” darzustellen. Darüberhinaus demonstrieren wir, dass die Taggingpragmatik verschiedene Facetten der Taggingsemantik beeinflusst. Anschließend untersuchen wir, inwieweit wir menschliche Navigationspfade zur Bestimmung semantischer Ähnlichkeit benutzen können. Hierzu betrachten wir mehrere Datensätze, die Navigationsdaten in verschiedenen Rahmenbedingungen beinhalten. Als letztes stellen wir einen neuartigen Algorithmus vor, um bereits trainierte Word Embeddings im Nachhinein an menschliche Intuition von Semantik anzupassen. Diese Arbeit steuert wertvolle Beiträge zum Gebiet der Bestimmung von semantischer Ähnlichkeit bei: Es werden Methoden vorgestellt werden, um hochqualitative semantische Information aus Web-Navigation und Taggingdaten zu extrahieren, diese mittels niedrigdimensionaler Vektordarstellungen zu modellieren und selbige schließlich besser an menschliches Empfinden von semantischer Ähnlichkeit anzupassen, indem aus genau diesem Empfinden gelernt wird. Anwendungen liegen in erster Linie darin, Ontologien für das Semantic Web zu lernen, allerdings auch in allen Bereichen, die Vektordarstellungen von semantischen Entitäten benutzen. KW - Semantik KW - Maschinelles Lernen KW - Soziale Software KW - Semantics KW - User Behavior KW - Social Web KW - Machine Learning Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-178666 ER - TY - THES A1 - Pfitzner, Christian T1 - Visual Human Body Weight Estimation with Focus on Clinical Applications T1 - Optische Körpergewichtsschätzung für medizinische Anwendungen N2 - It is the aim of this thesis to present a visual body weight estimation, which is suitable for medical applications. A typical scenario where the estimation of the body weight is essential, is the emergency treatment of stroke patients: In case of an ischemic stroke, the patient has to receive a body weight adapted drug, to solve a blood clot in a vessel. The accuracy of the estimated weight influences the outcome of the therapy directly. However, the treatment has to start as early as possible after the arrival at a trauma room, to provide sufficient treatment. Weighing a patient takes time, and the patient has to be moved. Furthermore, patients are often not able to communicate a value for their body weight due to their stroke symptoms. Therefore, it is state of the art that physicians guess the body weight. A patient receiving a too low dose has an increased risk that the blood clot does not dissolve and brain tissue is permanently damaged. Today, about one-third gets an insufficient dosage. In contrast to that, an overdose can cause bleedings and further complications. Physicians are aware of this issue, but a reliable alternative is missing. The thesis presents state-of-the-art principles and devices for the measurement and estimation of body weight in the context of medical applications. While scales are common and available at a hospital, the process of weighing takes too long and can hardly be integrated into the process of stroke treatment. Sensor systems and algorithms are presented in the section for related work and provide an overview of different approaches. The here presented system -- called Libra3D -- consists of a computer installed in a real trauma room, as well as visual sensors integrated into the ceiling. For the estimation of the body weight, the patient is on a stretcher which is placed in the field of view of the sensors. The three sensors -- two RGB-D and a thermal camera -- are calibrated intrinsically and extrinsically. Also, algorithms for sensor fusion are presented to align the data from all sensors which is the base for a reliable segmentation of the patient. A combination of state-of-the-art image and point cloud algorithms is used to localize the patient on the stretcher. The challenges in the scenario with the patient on the bed is the dynamic environment, including other people or medical devices in the field of view. After the successful segmentation, a set of hand-crafted features is extracted from the patient's point cloud. These features rely on geometric and statistical values and provide a robust input to a subsequent machine learning approach. The final estimation is done with a previously trained artificial neural network. The experiment section offers different configurations of the previously extracted feature vector. Additionally, the here presented approach is compared to state-of-the-art methods; the patient's own assessment, the physician's guess, and an anthropometric estimation. Besides the patient's own estimation, Libra3D outperforms all state-of-the-art estimation methods: 95 percent of all patients are estimated with a relative error of less than 10 percent to ground truth body weight. It takes only a minimal amount of time for the measurement, and the approach can easily be integrated into the treatment of stroke patients, while physicians are not hindered. Furthermore, the section for experiments demonstrates two additional applications: The extracted features can also be used to estimate the body weight of people standing, or even walking in front of a 3D camera. Also, it is possible to determine or classify the BMI of a subject on a stretcher. A potential application for this approach is the reduction of the radiation dose of patients being exposed to X-rays during a CT examination. During the time of this thesis, several data sets were recorded. These data sets contain the ground truth body weight, as well as the data from the sensors. They are available for the collaboration in the field of body weight estimation for medical applications. N2 - Diese Arbeit zeigt eine optische Körpergewichtsschätzung, welche für medizinische Anwendungen geeignet ist. Ein gängiges Szenario, in dem eine Gewichtsschätzung benötigt wird, ist die Notfallbehandlung von Schlaganfallpatienten: Falls ein ischämischer Schlaganfall vorliegt, erhält der Patient ein auf das Körpergewicht abgestimmtes Medikament, um einen Thrombus in einem Gefäß aufzulösen. Die Genauigkeit der Gewichtsschätzung hat direkten Einfluss auf den Erfolg der Behandlung. Hinzu kommt, dass die Behandlung so schnell wie möglich nach der Ankunft im Krankenhaus erfolgen muss, um eine erfolgreiche Behandlung zu garantieren. Das Wiegen eines Patienten ist zeitaufwändig und der Patient müsste hierfür bewegt werden. Des Weiteren können viele Patienten aufgrund des Schlaganfalls nicht ihr eigenes Gewicht mitteilen. Daher ist es heutzutage üblich, dass Ärzte das Gewicht schätzen. Erhält ein Patient eine zu geringe Dosis, steigt das Risiko, dass sich der Thrombus nicht auflöst und das Gehirngewebe dauerhaft geschädigt bleibt. Eine Überdosis kann dagegen zu Blutungen und weiteren Komplikationen führen. Ein Drittel der Patienten erhält heutzutage eine unzureichende Dosis. Ärzte sind sich dessen bewusst, aber derzeit gibt es kein alternatives Vorgehen. Diese Arbeit präsentiert Elemente und Geräte zur Messung und Schätzung des Körpergewichts, die im medizinischen Umfeld verwendet werden. Zwar sind Waagen im Krankenhaus üblich, aufgrund des engen Zeitfensters für die Behandlung können sie aber nur schlecht in den Behandlungsablauf von Schlaganfallpatienten integriert werden. Der Abschnitt zum Stand der Technik zeigt verschiedene Sensorsysteme und Algorithmen. Das hier gezeigte System -- genannt Libra3D -- besteht aus einem Computer im Behandlungsraum, sowie den in der Decke integrierten optischen Sensoren. Für die Gewichtsschätzung befindet sich der Patient auf einer Liege im Blickfeld der Sensoren. Die drei Sensoren -- zwei RGB-D- und einer Wärmebildkamera -- sind intrinsisch und extrinsisch kalibriert. Des Weiteren werden Algorithmen zur Sensorfusion vorgestellt, welche die Daten für eine erfolgreiche Segmentierung des Patienten zusammenführen. Eine Kombination aus verschiedenen gängigen Bildverarbeitungs- und Punktwolken-Algorithmen lokalisiert den Patienten auf der Liege. Die Herausforderung in diesem Szenario mit dem Patienten auf dem Bett sind ständige Veränderungen, darunter auch andere Personen oder medizinische Geräte im Sichtfeld. Nach der erfolgreichen Segmentierung werden Merkmale von der Punktwolke des Patienten extrahiert. Diese Merkmale beruhen auf geometrischen und statistischen Eigenschaften und bieten robuste Werte für das nachfolgende maschinelle Lernverfahren. Die Schätzung des Gewichts basiert letztlich auf einem zuvor trainierten künstlichen neuronalen Netz. Das Kapitel zu den Experimenten zeigt verschiedene Kombinationen von Werten aus dem Merkmalsvektor. Zusätzlich wird der Ansatz mit Methoden aus dem Stand der Technik verglichen: der Schätzung des Patienten, des Arztes, und einer anthropometrischen Schätzung. Bis auf die eigene Schätzung des Patienten übertrifft Libra3D hierbei alle anderen Methoden: 95 Prozent aller Schätzungen weisen einen relativen Fehler von weniger als 10 Prozent zum realen Körpergewicht auf. Dabei benötigt das System wenig Zeit für eine Messung und kann einfach in den Behandlungsablauf von Schlaganfallpatienten integriert werden, ohne Ärzte zu behindern. Des Weiteren zeigt der Abschnitt für Experimente zwei weitere Anwendungen: Die extrahierten Merkmale können dazu verwendet werden das Gewicht von stehenden und auch laufenden Personen zu schätzen, die sich vor einer 3D-Kamera befinden. Darüber hinaus ist es auch möglich den BMI von Patienten auf einer Liege zu bestimmen. Diese kann die Strahlenexposition bei CT-Untersuchungen beispielsweise verringern. Während dieser Dissertation sind einige Datensätze entstanden. Sie enthalten das reale Gewicht, sowie die dazugehörigen Sensordaten. Die Datensätze sind für die Zusammenarbeit im Bereich der Körpergewichtsschätzung für medizinische Anwendungen verfügbar. T3 - Forschungsberichte in der Robotik = Research Notes in Robotics - 18 KW - Punktwolke KW - Maschinelles Lernen KW - Schlaganfall KW - Körpergewicht KW - Bildverarbeitung KW - 3D Point Cloud Processing KW - Image Processing KW - Stroke KW - Human Body Weight KW - Kinect KW - Machine Learning KW - Sensor Fusion KW - Segmentation KW - Perception Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-174842 SN - 978-3-945459-27-0 (online) ER -