TY  - INPR
A1  - Nassourou, Mohamadou
T1  - A Knowledge-based Hybrid Statistical Classifier for Reconstructing the Chronology of the Quran
N2  - Computationally categorizing Quran’s chapters has been mainly confined to the determination of chapters’ revelation places. However this broad classification is not sufficient to effectively and thoroughly understand and interpret the Quran. The chronology of revelation would not only improve comprehending the philosophy of Islam, but also the easiness of implementing and memorizing its laws and recommendations. This paper attempts estimating possible chapters’ dates of revelation through their lexical frequency profiles. A hybrid statistical classifier consisting of stemming and clustering algorithms for comparing lexical frequency profiles of chapters, and deriving dates of revelation has been developed. The classifier is trained using some chapters with known dates of revelation. Then it classifies chapters with uncertain dates of revelation by computing their proximity to the training ones. The results reported here indicate that the proposed methodology yields usable results in estimating dates of revelation of the Quran’s chapters based on their lexical contents.
KW  - Text Mining
KW  - Maschinelles Lernen
KW  - text categorization
KW  - Bayesian classifier
KW  - distance-based classifier
KW  - Quran
Y1  - 2011
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-54712
ER  - 
TY  - INPR
A1  - Nassourou, Mohamadou
T1  - Using Machine Learning Algorithms for Categorizing Quranic Chaptersby Major Phases of Prophet Mohammad’s Messengership
N2  - This paper discusses the categorization of Quranic chapters by major phases of Prophet Mohammad’s messengership using machine learning algorithms. First, the chapters were categorized by places of revelation using Support Vector Machine and naïve Bayesian classifiers separately, and their results were compared to each other, as well as to the existing traditional Islamic and western orientalists classifications. The chapters were categorized into Meccan (revealed in Mecca) and Medinan (revealed in Medina). After that, chapters of each category were clustered using a kind of fuzzy-single linkage clustering approach, in order to correspond to the major phases of Prophet Mohammad’s life. The major phases of the Prophet’s life were manually derived from the Quranic text, as well as from the secondary Islamic literature e.g hadiths, exegesis. Previous studies on computing the places of revelation of Quranic chapters relied heavily on features extracted from existing background knowledge of the chapters. For instance, it is known that Meccan chapters contain mostly verses about faith and related problems, while Medinan ones encompass verses dealing with social issues, battles…etc. These features are by themselves insufficient as a basis for assigning the chapters to their respective places of revelation. In fact, there are exceptions, since some chapters do contain both Meccan and Medinan features. In this study, features of each category were automatically created from very few chapters, whose places of revelation have been determined through identification of historical facts and events such as battles, migration to Medina…etc. Chapters having unanimously agreed places of revelation were used as the initial training set, while the remaining chapters formed the testing set. The classification process was made recursive by regularly augmenting the training set with correctly classified chapters, in order to classify the whole testing set. Each chapter was preprocessed by removing unimportant words, stemming, and representation with vector space model. The result of this study shows that, the two classifiers have produced useable results, with an outperformance of the support vector machine classifier. This study indicates that, the proposed methodology yields encouraging results for arranging Quranic chapters by phases of Prophet Mohammad’s messengership.
KW  - Koran
KW  - Maschinelles Lernen
KW  - Text categorization
KW  - Clustering
KW  - Support Vector Machine
KW  - Naïve Bayesian
KW  - Place of revelation
KW  - Stages of Prophet Mohammad’s messengership
KW  - Quran
Y1  - 2011
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-66862
ER  - 
TY  - THES
A1  - Zilian, David
T1  - Neuartige, empirische Scoring-Modelle für Protein-Ligand-Komplexe und computergestützte Entwicklung von Hsp70-Inhibitoren
T1  - Novel empirical scoring-functions for protein-ligand complexes and computer-aided development of Hsp70 inhibitors
N2  - Techniken des computergestützten Wirkstoffdesigns spielen eine wichtige Rolle bei der Entwicklung neuer Wirkstoffe. Die vorliegende Arbeit befasst sich sowohl mit der Entwicklung als auch mit der praktischen Anwendung von Methoden des strukturbasierten Wirkstoffdesigns. Die Arbeit glieder sich daher in zwei Teile.

Der erste Teil beschäftigt sich mit der Entwicklung von empirischen Scoring-Funktionen, die eine Schlüsselrolle im strukturbasierten computergestützen Wirkstoffdesign einnehmen. Grundlage dieser Arbeiten sind die empirischen Deskriptoren und Scoring-Funktionen aus dem SFCscore-Programmpaket. 

Dabei wurde zunächst untersucht, wie sich die Zusammensetzung der Trainingsdaten auf die Vorhersagen von empirischen Scoring-Funktionen auswirkt. Durch die gezielte Zusammenstellung eines neuen Trainingsdatensatzes wurde versucht, die Spannweite der Vorhersagen zu vergrößern, um so vor allem eine bessere Erkennung von hoch- und niedrig-affinen Komplexen zu erreichen. Die resultierende Funktion erzielte vor allem im niedrig-affinen Bereich verbesserte Vorhersagen.

Der zweite Themenkomplex beschäftigt sich ebenfalls mit der verbesserten Separierung von aktiven und inaktiven Verbindungen. Durch den Einsatz der Machine Learning-Methode RandomForest wurden dazu Klassifizierungsmodelle abgeleitet, die im Unterschied zu den klassischen Scoring-Funktionen keinen genauen Score liefern, sondern die Verbindungen nach ihrer potentiellen Aktivität klassifizieren. 
Am Beispiel des mykobakteriellen Enzyms InhA konnte gezeigt werden, dass derartige Modelle den klassischen Scoring-Funktionen im Bezug auf die Erkennung von aktiven Verbindungen deutlich überlegen sind. 

Der RandomForest-Algorithmus wurde im nächsten Schritt auch verwendet, um eine neue Scoring-Funktion zur Vorhersage von Bindungsaffinitäten abzuleiten. Diese Funktion wurde unter dem Namen SFCscoreRF in das SFCscore-Programmpaket implementiert. Die Funktion unterschiedet sich in einigen wesentlichen Punkten von den ursprünglichen SFCscore-Funktionen.
Zum einen handelt es sich beim RF-Algorithmus um eine nicht-lineare Methode, die im Unterschied zu den klassischen Methoden, die zur Ableitung von Scoring-Funktionen eingesetzt werden, nicht von der Additivität der einzelnen Deskriptoren ausgeht. Der Algorithmus erlaubt außerdem die Verwendung aller verfügbaren SFCscore-Deskriptoren, was eine deutlich umfassendere Repräsentation von Protein-Ligand-Komplexen als Grundlage des Scorings ermöglicht. Für die Ableitung von SFCscoreRF wurden insgesamt 1005 Komplexe im Trainingsdatensatz verwendet.  Dieser Datensatz ist somit einer der größten, die bisher für die Ableitung einer empirischen Scoring-Funktion verwendet wurden.

Die Evaluierung gegen zwei Benchmark-Datensätze ergab deutlich bessere Vorhersagen von SFCscoreRF im Vergleich zu den ursprünglichen SFCscore-Funktionen. Auch im internationalen Vergleich mit anderen Scoring-Funktion konnten für beide Datensätze Spitzenwerte erreicht werden. 
Weitere ausgiebige Testungen im Rahmen einer Leave-Cluster-Out-Validierung und die Teilnahme am CSAR 2012 Benchmark Exercise ergaben, dass auch SFCscoreRF Performanceschwankungen bei der Anwendung an proteinspezifischen Datensätzen zeigt - ein Phänomen, dass bei Scoring-Funktionen immer beobachtet wird. Die Analyse der CSAR 2012-Datensätze ergab darüber hinaus wichtige Erkenntnisse im Bezug auf Vorhersage von gedockten Posen sowie über die statistische Signifikanz bei der Evaluierung von Scoring-Funktionen.

Die Tatsache, dass empirische Scoring-Funktionen innerhalb eines bestimmten chemischen Raums trainiert wurden, ist ein wichtiger Faktor für die protein-abhängigen Leistungsschwankungen, die in dieser Arbeit beobachtet wurden. Verlässliche Vorhersagen sind nur innerhalb des kalibrierten chemischen Raums möglich. In dieser Arbeit wurden verschiedene Ansätze untersucht, mit denen sich diese ``Applicability Domain'' für die SFCscore-Funktionen definieren lässt. Mit Hilfe von PCA-Analysen ist es gelungen die  ``Applicability Domain'' einzelner Funktionen zu visualisieren. Zusätzlich wurden eine Reihe numerischer Deskriptoren getestet, mit den die Vorhersageverlässlichkeit basierend auf der ``Applicability Domain'' abgeschätzt werden könnte. Die RF-Proximity hat sich hier als vielversprechender Ausgangspunkt für weitere Entwicklungen erwiesen.

Der zweite Teil der Arbeit beschäftigt sich mit der Entwicklung neuer Inhibitoren für das Chaperon Hsp70, welches eine vielversprechende Zielstruktur für die Therapie des multiplen Myeloms darstellt. 
Grundlage dieser Arbeiten war eine Leitstruktur, die in einer vorhergehenden Arbeit entdeckt wurde und die vermutlich an einer neuartigen Bindestelle in der Interface-Region zwischen den beiden großen Domänen von Hsp70 angreift.

Die Weiterentwicklung und Optimierung dieser Leitstruktur, eines Tetrahydroisochinolinon-Derivats, stand zunächst im Vordergrund. Anhand detaillierter Docking-Analysen wurde der potentielle Bindemodus der Leitstruktur in der Interfaceregion von Hsp70 untersucht. Basierend auf diesen Ergebnissen wurde eine Substanzbibliothek erstellt, die von Kooperationspartnern innerhalb der KFO 216 synthetisiert und biologisch getestet wurde. Die Struktur-Wirkungsbeziehungen, die sich aus diesen experimentellen Daten ableiten lassen, konnten teilweise gut mit den erstellten Docking-Modellen korreliert werden. Andere Effekte konnten anhand der Docking-Posen jedoch nicht erklärt werden. Für die Entwicklung neuer Derivate ist deswegen eine umfassendere experimentelle Charakterisierung und darauf aufbauend eine Verfeinerung der Bindungsmodelle notwendig.

Strukturell handelt es sich bei Hsp70 um ein Zwei-Domänen-System, dass verschiedene allostere Zustände einnehmen kann. Um die Auswirkungen der daraus folgenden Flexibilität auf die Stabilität der Struktur und die Bindung von Inhibitoren zu untersuchen, wurden molekulardynamische Simulationen für das Protein durchgeführt.
Diese zeigen, dass das Protein tatsächlich eine überdurchschnittlich hohe Flexibilität aufweist, die vor allem durch die relative Bewegung der beiden großen Domänen zueinander dominiert wird. Die Proteinkonformation die in der Kristallstruktur hscaz beobachtet wird, bleibt jedoch in ihrer Grundstruktur in allen vier durchgeführten Simulationen erhalten. Es konnten hingegen keine Hinweise dafür gefunden werden, dass die Mutationen, welche die für die strukturbasierten Arbeiten verwendete Kristallstruktur im Vergleich zum Wildtyp aufweist, einen kritischen Einfluss auf die Gesamtstabilität des Systems haben. 

Obwohl die Interface-Region zwischen NBD und SBD also in allen Simulationen erhalten bleibt, wird die Konformation in diesem Bereich doch wesentlich durch die Domänenbewegung beeinflusst und variiert. Da dieser Proteinbereich den wahrscheinlichsten Angriffspunkt der Tetrahydroisochinolinone darstellt, wurde der Konformationsraum detailliert untersucht. Wie erwartet weist die Region eine nicht unerhebliche Flexibilität auf, welche zudem, im Sinne eines ``Induced-Fit''-Mechanismus, durch die Gegenwart eines Liganden (Apoptozol) stark beeinflusst wird. Es ist daher als sehr wahrscheinlich anzusehen, dass die Dynamik der Interface-Region auch einen wesentlichen Einfluss auf die Bindung der Tetrahydroisochinolinone hat. Molekuardynamische Berechnungen werden deswegen auch in zukünftige Arbeiten auf diesem Gebiet eine wichtige Rolle spielen.

Die Analysen zeigen zudem, dass die Konformation der Interface-Region eng mit der Konformation des gesamten Proteins - vor allem im Bezug auf die relative Stellung von SBD und NBD zueinander - verknüpft ist. Das untermauert die Hypothese, dass die Interface-Bindetasche einen Angriffspunkt für die Inhibtion des Proteins darstellt.
N2  - Methods of computational drug design play a crucial role in the development of new pharmaceutical drugs. The work presented here comprises the methodological development and the practical application of structure-based techniques in computational drug design. 

The first part of this dissertation focuses on the development of empirical scoring functions, which play an essential part in structure-based computer-aided drug design. The basis for this work are the empirical descriptors and scoring functions of the SFCscore software package.

First, the influence of the training data composition on the prediction of empirical scoring functions was analyzed. A new training data set was created to spread the prediction range of the function and thus achieve a better separation of high and low affinity binders. The resulting function indeed yielded better predictions in the low affinity area compared to the original functions.

In another approach, which also addresses the issue of discriminating active and inactive compounds, the Machine Learning method RandomForest (RF) was used to derive a classification model. Different to classical empirical scoring functions, this model no longer predicts a precise value but classifies the compounds according to their potential affinity as 'active' or 'inactive'.
The example of the mycobacterial enzyme InhA showed that such models are clearly superior to different classical scoring function in terms of separating active and inactive compounds.

The RandomForest algorithm was also used to derive a new scoring function for the prediction of binding affinities. This new function was implemented into the SFCscore software package under the name SFCscoreRF. This new function differs from the original SFCscore functions in several essentials points. On the one hand, the RF-algorithm is a non-linear method, which - in contrast to classical methods used for the derivation of empirical scoring functions - does not assume the additivity of the single descriptors.  On the other hand, the algorithm allowes for using the whole set of available SFCscore descriptors and is therefore able to utilize a more comprehensive representation of a protein ligand complex as the basis for the prediction. Additionally, the training data set used to derive SFCscoreRF comprised 1005 complexes. This training set is one of the largest data sets used to train an empirical scoring function.

The evaluation against two widely-used benchmark sets confirmed that SFCscoreRF yields superior predicitons as compared to the original functions. The comparison with other functions tested for these benchmarks shows that SFCscoreRF also achieves top results on an international level.
Further analyses using a leave-cluster-out validation scheme and the participation in the CSAR 2012 Benchmark Exercise revealed that - similar to other scoring functions - SFCscoreRF shows varying performances when applied to protein-specific data sets. Additionally, by analysing the results of the CSAR 2012 data sets, valuable insight were gained regarding the prediction of docking poses and the statistical significance for the evaluation and comparison of scoring functions.

The fact that empirical scoring functions are trained within a certain chemical space, is an important reason for the target-dependent performance observed in this work. Reliable predictions can only be expected within the calibrated area. Different approaches for the definition of this ``applicability domain'' are presented in this work. PCA analyses have been used to create a two dimensional representation of the ``applicability domain''. Additionally, different numerical descriptors have been tested to estimate the reliability of SFCscore predicitons. The RF-proximity has been found to be a promising starting point for future research.

The development of new inhibitors for the molecular chaperone Hsp70 - a promising target in the therapy of multiple myeloma - comprises the second part of this dissertation. 
The basis for this work was a lead structure that was found in a previous work and attacks a novel binding pocket in the interface between the two domains of the Hsp70 protein.

The optimization and development of that lead structure - a tetrahydroisochinolinone - was the primary focus of the present work. Potential binding poses in the interface were elucidated by detailed docking analyses. Based on that information, a compound library was compiled, which was synthezised and biologically analyzed by cooperation partners within the CRU 216. The resulting structure activity relationships can partially be explained on the basis of the corresponding docking poses. However, some of the effects remain unexplained. For the further development of new derivatives a comprehensive experimental characterization of the current compounds is needed. This information can be used as a basis for the refinement of the existing binding models.

Hsp70 is a two-domain system, which can visit different allosteric states. To further investigate the effects of the resulting flexibility on the stability of the structure and on inhibitor binding, molecular dynamics simulations were conducted.
These simulations show an above-average felxibility of the protein, which is primarily dominated by the movement of the two domains NBD and SBD relatively to each other. However, the basic conformation that is observed in the crystal structure hscaz, which was used in this work, remains stable in all simulations. Furthermore, the trajectories showed no evidence that the mutations, in which hscaz differs from the wild type protein, have a significant effect on the overall protein conformation.

Although, the overall conformation of the interface between NDB and SBD remains stable, the exact conformation in this area is signficantly influenced by the domain movement. As this region includes the binding pocket of the tetrahydroisochinolinones, the conformational space of this area was analyzed in detail.
The analyses expectedly reveal a high flexibility in the interface area that is dominated by the SBD-NBD movement. Furthermore, it could be shown that the conformation and dynamics can be influenced by a bound ligand (apoptozole), in terms of an induced fit mechanism. It is highly probable that the binding of the tetrahydroisochinolinones trigger similar effects, influencing the binding mechanism of this compound class. Thus, molecular dynamics simulations should play a crucial role in the future development of new compounds.

The analyses also show that the dynamics of the interface region have large effects on the overall structure of the protein and vice versa. Especially, the relative orientation of NBD and SBD has a large impact on the binding pocket. This underlines the hypothesis that the interface region constitutes a promising target area for the inhibition of Hsp70.
KW  - Arzneimittelforschung
KW  - Strukturbasiertes Wirkstoffdesign
KW  - Structure-based drug design
KW  - Computational chemistry
KW  - Molekulardesign
KW  - Proteine
KW  - Hitzeschock-Proteine
KW  - Scoring-Funktionen
KW  - Docking
KW  - molekulardynamische Simulationen
KW  - Hsp70
KW  - Strukturoptimierung
KW  - scoring functions
KW  - molecular dynamics
KW  - lead structure optimization
KW  - Ligand <Biochemie>
KW  - Maschinelles Lernen
Y1  - 2014
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-105055
ER  - 
TY  - THES
A1  - Hein, Michael
T1  - Entwicklung computergestützter Methoden zur Bewertung von Docking-Lösungen und Entwurf niedermolekularer MIP-Inhibitoren
T1  - Development of computer-aided methods for the evaluation of docking poses and design of small-molecule MIP inhibitors
N2  - Dockingbasierte Ansätze zählen zu den wichtigsten Komponenten im virtuellen Screening. Sie dienen der Vorhersage der Ligandposition und -konformation in der Bindetasche sowie der Abschätzung der Bindungsaffinität zum Protein. Bis heute stellt die korrekte Identifizierung proteingebundener Ligandkonformationen ein noch nicht vollständig gelöstes Problem für Scoringfunktionen dar. Der erste Teil der vorliegenden Arbeit ist daher der Entwicklung computergestützter Methoden zur Bewertung von Docking-Lösungen gewidmet.

Der Fokus eines ersten Teilprojektes lag auf der Berücksichtigung der Absättigung vergrabener Wasserstoffbrückenakzeptoren (HBA) und -donoren (HBD) bei der Bewertung von Docking-Lösungen. Nicht-abgesättigte vergrabene HBA und HBD stellen einen der Bindungsaffinität abträglichen Beitrag dar, der bis dato aufgrund fehlender Struktur- bzw. Affinitätsdaten in Scoringfunktionen vernachlässigt wird. Im Rahmen der vorliegenden Arbeit wurde auf der Basis einer detaillierten Untersuchung zur Häufigkeit vergrabener nicht-abgesättigter HBA und HBD in hochaufgelösten Protein-Ligand-Komplexen des Hartshorn-Datensatzes eine empirische Filterfunktion („vnaHB“-Filterfunktion) entwickelt, die unerwünschte Ligandbindeposen erkennt und von der Bewertung mittels Scoringfunktionen ausschließt. Der praktische Nutzen der empirischen Filterfunktion wurde für die Scoringfunktionen SFCscore und DSX anhand vorgenerierter Docking-Lösungen des Cheng-Datensatzes untersucht. Die Häufigkeitsuntersuchung zeigt, dass eine Absättigung vergrabener polarer Gruppen in Protein-Ligand-Komplexen für eine hochaffine Protein-Ligand-Bindung notwendig ist, da vergrabene nicht-abgesättigte HBA und HBD nur selten auftreten. Eine vollständige Absättigung durch entsprechende Proteinpartner wird für ca. 48 % der untersuchten Komplexe beobachtet, ca. 92 % weisen weniger als drei hauptsächlich schwache, nicht-abgesättigte HBA bzw. HBD (z. B. Etherfunktionen) auf. Unter Einbeziehung von Wassermolekülen in die Häufigkeitsanalyse sind sogar für ca. 61 % aller Komplexe alle wasserstoffbrückenbindenden Gruppen abgesättigt. Im Gegensatz zu DSX werden für SFCscore nach Anwendung der empirischen Filterfunktion erhöhte Erfolgsraten für das Auffinden einer kristallnahen Pose (≤ 2.0 Å Abweichung) unter den am besten bewerteten Docking-Posen erzielt. Für die beste SFCscore-Funktion (SFCscore::229m) werden Steigerungen dieses als „Docking Power“ bezeichneten Kriteriums für die Top-3-Posen (Erfolgsrate für die Identifizierung einer kristallnahen 2.0 Å Pose unter den besten drei Docking-Lösungen) von 63.1 % auf 64.2 % beobachtet.

In einem weiteren Teilprojekt wurden repulsive Protein-Ligand-Kontakte infolge sterischer Überlappungen der Bindungspartner bei der Bewertung von Docking-Lösungen berücksichtigt. Die adäquate Einbeziehung solcher repulsiver Kontakte im Scoring ist für die Identifizierung proteingebundener Ligandkonformationen entscheidend, jedoch aufgrund fehlender Affinitäts- bzw. Strukturdaten problematisch. Im Rahmen der vorliegenden Arbeit wurde auf der Basis des Lennard-Jones-Potentiales des AMBER-Kraftfeldes zunächst ein neuer Deskriptor zur Beschreibung repulsiver Kontakte („Clash“-Deskriptor) entwickelt und zur Untersuchung der Häufigkeit ungünstiger Protein-Ligand-Kontakte in hochaufgelösten Protein-Ligand-Komplexen des Hartshorn-Datensatzes herangezogen. Eine aus der Häufigkeitsverteilung abgeleitete empirische Filterfunktion („Clash“-Filterfunktion) wurde anschließend der Bewertung von Docking-Lösungen des Cheng-Datensatzes mittels der Scoringfunktionen SFCscore und DSX vorgeschaltet, um unerwünschte Ligandbindeposen auszuschließen. Die Häufigkeitsuntersuchung zeigt, dass vorwiegend schwache repulsive Kontakte in Protein-Ligand-Komplexen auftreten. So werden in 75 % der Komplexe des Hartshorn-Datensatzes abstoßende Potentiale unter 0.462 kcal/mol beobachtet. Zwar betragen die ungünstigen Beiträge pro Komplex für 50 % aller Strukturen ca. 0.8 kcal/mol bis 2.5 kcal/mol, jedoch können diese auf Ungenauigkeiten der Kristallstrukturen zurückzuführen sein bzw. durch günstige Protein-Ligand-Wechselwirkungen kompensiert werden. Die Anwendung der „Clash“-Filterfunktion zeigt signifikante Verbesserungen der Docking Power für SFCscore. Für die beste SFCscore-Funktion (SFCscore::frag) werden Steigerungen der Erfolgsraten für das Auffinden einer kristallnahen Pose unter den drei am besten bewerteten Docking-Lösungen von 61.4 % auf 86.9 % erzielt, was an die Docking Power der bis dato besten Scoringfunktionen aus der Literatur (z. B. DSX, GlideScore::SP) heranreicht (Docking Power (DSX): 92.6 %; Docking Power (GlideScore::SP): 86.9 %). Die „Clash“-Filterfunktion allein ist auch der Kombination der „Clash“- und der „vnaHB“-Filterfunktion überlegen.

Ein weiterer Schwerpunkt der vorliegenden Arbeit wurde auf die Einbeziehung von Decoy-Daten (Struktur- und Affinitätsdaten schwach affiner und inaktiver Liganden) im Zuge der Entwicklung computergestützter Methoden zur Bewertung von Docking-Lösungen gelegt. Dadurch soll eine adäquate Berücksichtigung ungünstiger Beiträge zur Bindungsaffinität ermöglicht werden, die für die Richtigkeit und Zuverlässigkeit ermittelter Vorhersagen essentiell ist. In der vorliegenden Arbeit wurden binäre Klassifizierungsmodelle zur Bewertung von Docking-Lösungen entwickelt, die die Einbeziehung von Decoy-Daten ohne die Verfügbarkeit von Affinitätsdaten erlauben. Der Random-Forest-Algorithmus (RF), SFCscore-Deskriptoren, der neu entwickelte „Clash“-Deskriptor, und die Decoy-Datensätze von Cheng und Huang (Trainingsdaten) bilden die Grundlage des leistungsfähigsten Klassifizierungsmodells. Der praktische Nutzen des „besten“ RF-Modells wurde nach Kombination mit der Scoringfunktion DSX anhand der Docking Power für das Auffinden einer kristallnahen Pose auf Rang 1 am unabhängigen Cheng-/Huang- (Komplexe, die nicht in den Trainingsdaten enthalten sind) und CSAR-2012-Testdatensatz untersucht. Gegenüber einer alleinigen Anwendung von DSX werden an beiden Testdatensätzen weitere Verbesserungen der Docking Power erzielt (Cheng-/Huang-Testdatensatz: DSX 84.24 %, RF 87.27 %; CSAR-2012-Testdatensatz: DSX 87.93 %, RF 91.38 %). Das „beste“ Modell zeichnet sich durch die zuverlässige Vorhersage richtig-positiver Docking-Lösungen für einige wenige Komplexe aus, für die DSX keine kristallnahe Ligandkonformation identifizieren kann. Ein visueller Vergleich der jeweils am besten bewerteten RF- und DSX-Pose für diese Komplexe zeigt Vorteile des RF-Modells hinsichtlich der Erkennung für die Protein-Ligand-Bindung essentieller Wechselwirkungen. Die Untersuchung der Bedeutung einzelner SFCscore-Deskriptoren für die Klassifizierung von Docking-Lösungen sowie die Analyse der Misserfolge nach Anwendung des Modells geben wertvolle Hinweise zur weiteren Optimierung der bestehenden Methode. Hinsichtlich der zu bewertenden Eigenschaften ausgeglichenere Trainingsdaten, Weiterentwicklungen bestehender SFCscore-Deskriptoren sowie die Implementierung neuer Deskriptoren zur Beschreibung bis dato nicht-berücksichtigter Beiträge zur Bindungsaffinität stellen Ansatzpunkte zur Verbesserung dar.

Der zweite Teil der vorliegenden Arbeit umfasst die Anwendung dockingbasierter Methoden im Rahmen der Entwicklung neuer Inhibitoren des „Macrophage Infectivity Potentiator“-(MIP)-Proteins von Legionella pneumophila und Burkholderia pseudomallei.

Das MIP-Protein von Legionella pneumophila stellt einen wichtigen Virulenzfaktor und daher ein attraktives Zielprotein für die Therapie der Legionellose dar. Im Rahmen der vorliegenden Arbeit erfolgten systematische Optimierungen des Pipecolinsäure-Sulfonamides 1, des bis dato besten niedermolekularen MIP-Inhibitors (IC50 (1): 9 ± 0.7 µM). Nach Hot-Spot-Analysen der Bindetasche wurden Docking-Studien zur Auswahl aussichtsreicher Kandidaten für die Synthese und Testung auf MIP-Inhibition durchgeführt. Die Ergebnisse der Hot-Spot-Analysen zeigen günstige Wechselwirkungsbereiche für Donorgruppen und hydrophobe Substituenten in meta-Position sowie Akzeptorgruppen in para-Position des Benzylringes von 1 auf. Die Einführung einer Nitrofunktion in para-Position des Benzylringes von 1 (2h) resultiert in einer erhöhten MIP-Inhibition (IC50 (2h): 5 ± 1.5 µM), was wahrscheinlich auf die Ausbildung einer zusätzlichen Wasserstoffbrücke zu Gly116 zurückzuführen ist. Selektivitätsverbesserungen gegenüber dem strukturverwandten humanen FKBP12-Protein werden insbesondere für das para-Aminoderivat von 1 (2n) erzielt (Selektivitätsindex (1): 45, Selektivitätsindex (2n): 4.2; mit Selektivitätsindex = IC50 (MIP)/IC50 (FKBP12)). Der Ersatz des hydrophoben Trimethoxyphenylrestes von 1 durch einen Pyridinring (2s) führt zu einer verbesserten Löslichkeit bei vergleichbarer MIP-Inhibition.

Das MIP-Protein von Burkholderia pseudomallei spielt eine wichtige Rolle in der Pathogenese der Melioidose und stellt daher ein attraktives Zielprotein für die Entwicklung neuer Arzneistoffe dar. In der vorliegenden Arbeit erfolgten Optimierungen des bis dato besten niedermolekularen MIP-Inhibitors 1. Ausgehend von einem Strukturvergleich von Burkholderia pseudomallei MIP mit Legionella pneumophila MIP und einer Hot-Spot-Analyse der Burkholderia pseudomallei MIP-Bindetasche wurden Docking-Studien zur Auswahl aussichtsreicher Kandidaten für die Synthese und Testung auf MIP-Inhibition durchgeführt. Der Strukturvergleich zeigt eine hohe Homologie beider Bindetaschen. Größere konformelle Änderungen werden lediglich für den von Ala94, Gly95, Val97 und Ile98 geformten Bindetaschenbereich beobachtet, was unterschiedliche Optimierungsstrategien für 1 erforderlich macht. Günstige Wechselwirkungsbereiche der Burkholderia pseudomallei MIP-Bindetasche finden sich einerseits für Donorgruppen oder hydrophobe Substituenten in para-Position des Benzylringes (Region A) von 1, andererseits für Akzeptor- bzw. Donorgruppen in para- bzw. meta-/para-Position des Trimethoxyphenylringes (Region B). Anhand von Docking-Studien konnten sowohl für Variationen in Region A als auch in Region B aussichtsreiche Kandidaten identifiziert werden. Initiale MIP-Inhibitionsmessungen der bis dato synthetisierten Derivate deuten auf erhöhte Hemmungen im Vergleich zu 1 hin. Der Ersatz des hydrophoben Trimethoxyphenylrestes von 1 durch einen Pyridinring führt auch hier zu vergleichbarer MIP-Inhibition bei verbesserter Löslichkeit. Derzeit sind weitere Synthesen und Testungen aussichtsreicher Liganden durch die Kooperationspartner geplant. Die Ergebnisse der Inhibitionsmessungen sollen deren Nutzen als MIP-Inhibitoren aufzeigen und wertvolle Informationen für weitere Zyklen des strukturbasierten Wirkstoffdesigns liefern.
N2  - Docking-based approaches belong to important virtual screening components and aim at predicting both the ligand position and conformation within the protein binding site as well as the binding affinity. To date scoring functions are still not fully reliable in correctly identifying near-native ligand conformations generated by docking. Thus, the first part of the current work is dedicated to the development of computer-aided methods for the evaluation of docking poses.

A first project focused on considering the saturation of hydrogen bond acceptors (HBA) and donors (HBD) for the evaluation of docking poses. Since structural and affinity data are missing, current scoring functions neglect unpaired buried HBA and HBD, which strongly disfavour high-affinity binding. Based on a detailed frequency analysis of unpaired buried HBA and HBD within high-quality protein-ligand complexes of the Hartshorn dataset, an empirical filter function (“vnaHB” filter function) was developed to remove unfavourable ligand binding poses prior to the ranking with scoring functions. The practical benefit of the filter function was investigated for the scoring functions SFCscore and DSX using pre-generated docking poses of the Cheng dataset. As shown in the frequency analysis, the saturation of buried polar groups is of utmost importance for high-affinity binding, as unpaired buried HBA and HBD are extremely rare. A complete saturation by proper protein counterparts is observed for about 48 % of all complexes under study, whereas approximately 92 % have less than three, mostly weak unpaired buried HBA or HBD (e.g. ether functions). Including also the saturation by water molecules reveals that actually for about 61 % of all complexes every hydrogen bonding group is saturated. Unlike DSX, the application of the filter function with SFCscore results in higher success rates for identifying a near-native 2.0 Å pose under the top scored poses, a criterion termed “Docking Power”. For the best SFCscore function (SFCscore::229m) the Docking Power with respect to the top three poses increases from 63.1 % to 64.2 %.

A further project focused on considering repulsive intermolecular contacts due to sterical overlap of the protein-ligand binding partners for the evaluation of docking poses. Although an inclusion of such repulsive contacts in scoring is of utmost importance for the identification of protein-bound ligand conformations, it remains challenging because of missing structural and affinity data. Based on the Lennard-Jones potential of the AMBER force field a new descriptor accounting for repulsive protein-ligand contacts (“clash” descriptor) was developed and used for analysing the frequency of unfavourable protein-ligand contacts among high-quality structures of the Hartshorn dataset. An empirical filter function (“clash” filter function) derived from the frequency distribution was applied to pre-generated docking poses of the Cheng dataset to remove unfavourable ligand binding poses prior to the ranking with SFCscore and DSX. As shown in the frequency analysis, mostly weakly repulsive contacts occur within protein-ligand complexes. For 75 % of the complexes of the Hartshorn dataset repulsive potentials of less than 0.462 kcal/mol are observed. Indeed, unfavourable contributions add up to not more than 0.8 kcal/mol to 2.5 kcal/mol per complex for 50 % of all structures; values in this range may be attributed to inaccuracies of crystal structures or could be counterbalanced by favourable protein-ligand interactions. The application of the “clash” filter function shows significant improvements of the Docking Power of SFCscore. For the best SFCscore function (SFCscore::frag) the success rates for identifying a near-native 2.0 Å pose under the three top scored poses increases from 61.4 % to 86.9 %, which is comparable to the Docking Power of the best scoring functions (e.g. DSX, GlideScore::SP) currently available in literature (Docking Power (DSX): 92.6 %; Docking Power (GlideScore::SP): 86.9 %). The “clash” filter function alone is also superior to the combination of the “clash” and the “vnaHB” filter function.

Another focus of the work was the inclusion of decoy data (structure and affinity data of weakly active and inactive ligands) in scoring function development. Thus, unfavourable contributions to the binding affinity should be adequately considered, which appears essential for improving accuracy and reliability of the predictions. Within the scope of this work a binary classification model was developed for the evaluation of docking poses, allowing the inclusion of decoy poses without affinity data. The random forest algorithm (RF), SFCscore descriptors, the new “clash” descriptor, and the decoy datasets of Cheng and Huang (training data) provide the basis of the best-performing model. The practical benefit of the “best” RF model was investigated after combination with the scoring function DSX based on the Docking Power for identifying a near-native pose on rank 1 using the independent Cheng/Huang (only complexes not used for training) and the CSAR-2012 dataset. With respect to the standalone application of DSX, improvements of the Docking Power regarding both test sets are achieved (Cheng/Huang test set: DSX 84.24 %, RF 87.27 %; CSAR-2012 test set: DSX 87.93 %, RF 91.38 %). A key feature of the “best” model are reliable predictions of true positive docking poses for those complexes for which DSX fails to identify a near-native ligand conformation. A visual comparison of the best RF and DSX pose highlights advantages of the RF model regarding the recognition of interactions crucial for protein-ligand binding. The importance analysis of SFCscore descriptors for the classification of docking poses as well as the investigation of failures after model application provide useful hints for further improvements. Thus, more property-balanced training data, the further development of established SFCscore descriptors, and the implementation of new descriptors accounting for neglected contributions to the binding affinity constitute possible starting points for future improvements.

The second part of this work is dedicated to the application of docking-based methods for the development of new inhibitors of the "`Macrophage Infectivity Potentiator"'-(MIP) proteins of Legionella pneumophila and Burkholderia pseudomallei.

The MIP protein of Legionella pneumophila constitutes an important virulence factor and thus an attractive target for the treatment of legionellosis. Within the scope of this work the pipecolic acid sulfonamide 1, one of the best small-molecule MIP inhibitors to date (IC50 (1): 9 ± 0.7 µM), was systematically optimised. After hot spot analysis of the binding pocket, docking studies were conducted to select promising candidates for synthesis and testing MIP inhibition. The results of the hot spot analysis show favourable interaction fields for donor groups and hydrophobic substituents in meta position as well as acceptor groups in para position of the benzyl ring of 1. Introducing a nitro function in para position of the benzyl ring of 1 (2h) results in an increased MIP inhibition (IC50 (2h): 5 ± 1.5 µM), which is likely due to the formation of an additional hydrogen bond to Gly116. An improvement in the selectivity compared to the structurally related human FKBP12 protein is achieved particularly with the para amino derivative of 1 (2n) (selectivity index (1): 45, selectivity index (2n): 4.2, where the selectivity index = IC50 (MIP)/IC50 (FKBP12)). Replacing the hydrophobic trimethoxyphenyl residue of 1 with a pyridine ring (2s) leads to improved solubility and comparable MIP inhibition.

The MIP protein of Burkholderia pseudomallei plays an important role in the pathogenesis of melioidosis and thus constitutes an attractive target for the development of new drugs against this disease. Within the scope of this work the currently best small-molecule MIP inhibitor 1 was optimised. Starting with a structural comparison of Burkholderia pseudomallei MIP and Legionella pneumophila MIP, as well as a hot spot analysis of the Burkholderia pseudomallei MIP binding pocket, docking studies were conducted to select promising candidates for synthesis and testing for MIP inhibition. The structural comparison reveals a high homology of the two binding pockets. Major conformational changes are observed for the binding pocket region formed by Ala94, Gly95, Val97 and Ile98, which necessitates different optimisation strategies for 1. Favourable interaction fields for the Burkholderia pseudomallei MIP binding pocket are found for donor groups or hydrophobic substituents in para position of the benzyl ring (region A) of 1 as well as for acceptor or donor groups in para or meta/para position of the trimethoxyphenyl ring (region B). On the basis of the docking studies promising candidates could be identified for variations in both regions. Initial MIP inhibition measurements of synthesised derivatives indicate increased inhibition compared to 1. Replacing the hydrophobic trimethoxyphenyl residue of 1 with a pyridine ring (yielding a more soluble derivative) leads again to comparable MIP inhibition. Further syntheses and tests of promising ligands are currently being planned by the collaboration partners. The results of the inhibition measurements should demonstrate their suitability as MIP inhibitors and provide useful information for future structure-based drug design cycles.
KW  - Arzneimitteldesign
KW  - Computational chemistry
KW  - Legionella pneumophila
KW  - Burkholderia
KW  - Strukturbasiertes Wirkstoffdesign
KW  - Docking
KW  - Scoringfunktionen
KW  - Legionella pneumophila
KW  - Burkholderia pseudomallei
KW  - Structure-based drug design
KW  - Docking
KW  - Scoring functions
KW  - Legionella pneumophila
KW  - Burkholderia pseudomallei
KW  - Maschinelles Lernen
Y1  - 2014
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-101585
ER  - 
TY  - THES
A1  - Winkler, Marco
T1  - On the Role of Triadic Substructures in Complex Networks
T1  - Über die Bedeutung von Dreiecksstrukturen in komplexen Netzwerken
N2  - In the course of the growth of the Internet and due to increasing availability of data, over the last two decades, the field of network science has established itself as an own area of research. With quantitative scientists from computer science, mathematics, and physics working on datasets from biology, economics, sociology, political sciences, and many others, network science serves as a paradigm for interdisciplinary research.

One of the major goals in network science is to unravel the relationship between topological graph structure and a network’s function. As evidence suggests, systems from the same fields, i.e. with similar function, tend to exhibit similar structure. However, it is still vague whether a similar graph structure automatically implies likewise function. This dissertation aims at helping to bridge this gap, while particularly focusing on the role of triadic structures.

After a general introduction to the main concepts of network science, existing work devoted to the relevance of triadic substructures is reviewed. A major challenge in modeling triadic structure is the fact that not all three-node subgraphs can be specified independently
of each other, as pairs of nodes may participate in multiple of those triadic subgraphs.

In order to overcome this obstacle, we suggest a novel class of generative network models based on so called Steiner triple systems. The latter are partitions of a graph’s vertices into pair-disjoint triples (Steiner triples). Thus, the configurations on Steiner triples can be specified independently of each other without overdetermining the network’s link
structure.

Subsequently, we investigate the most basic realization of this new class of models. We call it the triadic random graph model (TRGM). The TRGM is parametrized by a probability  distribution over all possible triadic subgraph patterns. In order to generate a network instantiation of the model, for all Steiner triples in the system, a pattern is drawn from the distribution and adjusted randomly on the Steiner triple. We calculate the degree distribution of the TRGM analytically and find it to be similar to a Poissonian distribution. Furthermore, it is shown that TRGMs possess non-trivial triadic structure. We discover inevitable correlations in the abundance of certain triadic subgraph
patterns which should be taken into account when attributing functional relevance to particular motifs – patterns which occur significantly more frequently than expected at random. Beyond, the strong impact of the probability distributions on the Steiner triples on the occurrence of triadic subgraphs over the whole network is demonstrated. This interdependence allows us to design ensembles of networks with predefined triadic substructure. Hence, TRGMs help to overcome the lack of generative models needed for assessing the relevance of triadic structure.

We further investigate whether motifs occur homogeneously or heterogeneously distributed over a graph. Therefore, we study triadic subgraph structures in each node’s neighborhood individually. In order to quantitatively measure structure from an individual node’s perspective, we introduce an algorithm for node-specific pattern mining for both directed unsigned, and undirected signed networks. Analyzing real-world datasets, we find that there are networks in which motifs are distributed highly heterogeneously, bound to the proximity of only very few nodes. Moreover, we observe indication for the potential sensitivity of biological systems to a targeted removal of these critical vertices. In addition, we study whole graphs with respect to the homogeneity and homophily of their node-specific triadic structure. The former describes the similarity of subgraph distributions in the neighborhoods of individual vertices. The latter quantifies whether connected vertices
are structurally more similar than non-connected ones. We discover these features to be characteristic for the networks’ origins. Moreover, clustering the vertices of graphs regarding their triadic structure, we investigate structural groups in the neural network of C. elegans, the international airport-connection network, and the global network of diplomatic sentiments between countries. For the latter we find evidence for the instability of triangles considered socially unbalanced according to sociological theories.

Finally, we utilize our TRGM to explore ensembles of networks with similar triadic substructure in terms of the evolution of dynamical processes acting on their nodes. Focusing on oscillators, coupled along the graphs’ edges, we observe that certain triad motifs impose a clear signature on the systems’ dynamics, even when embedded in a larger
network structure.
N2  - Im Zuge des Wachstums des Internets und der Verfügbarkeit nie da gewesener Datenmengen, hat sich, während der letzten beiden Jahrzehnte, die Netzwerkwissenschaft zu einer eigenständigen Forschungsrichtung entwickelt. Mit Wissenschaftlern aus quantitativen Feldern
wie der Informatik, Mathematik und Physik, die Datensätze aus Biologie, den Wirtschaftswissenschaften, Soziologie, Politikwissenschaft und vielen weiteren Anwendungsgebieten untersuchen, stellt die Netzwerkwissenschaft ein Paradebeispiel interdisziplinärer Forschung dar.

Eines der grundlegenden Ziele der Netzwerkwissenschaft ist es, den Zusammenhang zwischen der topologischen Struktur und der Funktion von Netzwerken herauszufinden. Es gibt zahlreiche Hinweise, dass Netz-werke aus den gleichen Bereichen, d.h. Systeme mit ähnlicher Funktion, auch ähnliche Graphstrukturen aufweisen. Es ist allerdings nach wie vor unklar, ob eine ähnliche Graphstruktur generell zu gleicher Funktionsweise führt. Es ist das Ziel der vorliegenden Dissertation, zur Klärung dieser Frage beizutragen. Das Hauptaugenmerk wird hierbei auf der Rolle von Dreiecksstrukturen liegen.

Nach einer allgemeinen Einführung der wichtigsten Grundlagen der Theorie komplexer Netzwerke, wird eine Übersicht über existierende Arbeiten zur Bedeutung von Dreiecksstrukturen gegeben. Eine der größten Herausforderungen bei der Modellierung triadischer Strukturen ist die Tatsache, dass nicht alle Dreiecksbeziehungen in einem Graphen unabhängig voneinander bestimmt werden können, da zwei Knoten an mehreren solcher Dreiecksbeziehungen beteiligt sein können.

Um dieses Problem zu lösen, führen wir, basierend auf sogenannten Steiner-Tripel-Systemen, eine neue Klasse generativer Netzwerkmodelle ein. Steiner-Tripel-Systeme sind Zerlegungen der Knoten eines Graphen in paarfremde Tripel (Steiner-Tripel). Daher können die Konfigurationen auf Steiner-Tripeln unabhängig voneinander gewählt werden, ohne dass dies zu einer Überbestimmung der Netzwerkstruktur führen würde.

Anschließend untersuchen wir die grundlegendste Realisierung dieser neuen Klasse von Netzwerkmodellen, die wir das triadische Zufallsgraph-Modell (engl. triadic random graph model, TRGM) nennen. TRGMs werden durch eine Wahrscheinlichkeitsverteilung über alle möglichen Dreiecksstrukturen parametrisiert. Um ein konkretes Netzwerk zu erzeugen wird für jedes Steiner-Tripel eine Dreiecksstruktur gemäß der Wahrscheinlichkeitsverteilung gezogen und zufällig auf dem Tripel orientiert. Wir berechnen die Knotengradverteilung des TRGM analytisch und finden heraus, dass diese einer Poissonverteilung ähnelt. Des Weiteren
wird gezeigt, dass TRGMs nichttriviale Dreiecksstrukturen aufweisen. Außerdem finden wir unvermeidliche Korrelationen im Auftreten bestimmter Subgraphen, derer man sich bewusst sein sollte. Insbesondere wenn es darum geht, die Bedeutung sogenannter Motive (Strukturen,
die signifikant häufiger als zufällig erwartet auftreten) zu beurteilen. Darüber hinaus wird der starke Einfluss der Wahrscheinlichkeitsverteilung auf den Steiner-Tripeln, auf die generelle Dreiecksstruktur der erzeugten Netzwerke gezeigt. Diese Abhängigkeit ermöglicht es, Netzwerkensembles mit vorgegebener Dreiecksstruktur zu konzipieren. Daher helfen TRGMs dabei, den bestehenden Mangel an generativen Netzwerkmodellen, zur Beurteilung der Bedeutung triadischer Strukturen in Graphen, zu beheben.

Es wird ferner untersucht, wie homogen Motive räumlich über Graphstrukturen verteilt sind. Zu diesem Zweck untersuchen wir das Auftreten von Dreiecksstrukturen in der Umgebung jedes Knotens separat. Um die Struktur individueller Knoten quantitativ erfassen zu können, führen wir einen Algorithmus zur knotenspezifischen Musterauswertung (node-specific pattern mining) ein, der sowohl auf gerichtete, als auch auf Graphen mit positiven und negativen Kanten angewendet werden kann. Bei der Analyse realer Datensätze beobachten wir, dass Motive
in einigen Netzen hochgradig heterogen verteilt, und auf die Umgebung einiger, weniger Knoten beschränkt sind. Darüber hinaus finden wir Hinweise auf die mögliche  Fehleranfälligkeit biologischer Systeme auf ein gezieltes Entfernen ebendieser Knoten. Des Weiteren studieren wir ganze Graphen bezüglich der Homogenität und Homophilie ihrer
knotenspezifischen Dreiecksmuster. Erstere beschreibt die Ähnlichkeit der lokalen Dreiecksstrukturen zwischen verschiedenen Knoten. Letztere gibt an, ob sich verbundene Knoten bezüglich ihrer Dreiecksstruktur ähnlicher sind, als nicht verbundene Knoten. Wir stellen fest, dass diese Eigenschaften charakteristisch für die Herkunft der jeweiligen
Netzwerke sind. Darüber hinaus gruppieren wir die Knoten verschiedener Systeme bezüglich der Ähnlichkeit ihrer lokalen Dreiecksstrukturen. Hierzu untersuchen wir das neuronale Netz von C. elegans, das internationale Flugverbindungsnetzwerk, sowie das Netzwerk internationaler
Beziehungen zwischen Staaten. In Letzterem finden wir Hinweise darauf, dass Dreieckskonfigurationen, die nach soziologischen Theorien als unbalanciert gelten, besonders instabil sind.

Schließlich verwenden wir unser TRGM, um Netzwerkensembles mit ähnlicher Dreiecksstruktur bezüglich der Eigenschaften dynamischer Prozesse, die auf ihren Knoten ablaufen, zu untersuchen. Wir konzentrieren uns auf Oszillatoren, die entlang der Kanten der Graphen miteinander gekoppelt sind. Hierbei beobachten wir, dass bestimmte Dreiecksmotive
charakteristische Merkmale im dynamischen Verhalten der Systeme hinterlassen. Dies ist auch der Fall, wenn die Motive in eine größere Netzwerkstruktur eingebettet sind.
KW  - Netzwerk
KW  - Komplexes System
KW  - Substruktur
KW  - Dreieck
KW  - Networks
KW  - Complex Systems
KW  - Statistics
KW  - Machine Learning
KW  - Biological Networks
KW  - Statistische Physik
KW  - Statistische Mechanik
KW  - Data Mining
KW  - Maschinelles Lernen
KW  - Graphentheorie
Y1  - 2015
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-116022
SN  - 978-3-7375-5654-5
PB  - epubli GmbH
CY  - Berlin
ER  - 
TY  - THES
A1  - Klügl, Peter
T1  - Context-specific Consistencies in Information Extraction: Rule-based and Probabilistic Approaches
T1  - Kontextspezifische Konsistenzen in der Informationsextraktion: Regelbasierte und Probabilistische Ansätze
N2  - Large amounts of communication, documentation as well as knowledge and information are stored in textual documents. Most often, these texts like webpages, books, tweets or reports are only available in an unstructured representation since they are created and interpreted by humans. In order to take advantage of this huge amount of concealed information and to include it in analytic processes, it needs to be transformed into a structured representation. Information extraction considers exactly this task. It tries to identify well-defined entities and relations in unstructured data and especially in textual documents. 

Interesting entities are often consistently structured within a certain context, especially in semi-structured texts. However, their actual composition varies and is possibly inconsistent among different contexts. Information extraction models stay behind their potential and return inferior results if they do not consider these consistencies during processing. This work presents a selection of practical and novel approaches for exploiting these context-specific consistencies in information extraction tasks. The approaches direct their attention not only to one technique, but are based on handcrafted rules as well as probabilistic models. 

A new rule-based system called UIMA Ruta has been developed in order to provide optimal conditions for rule engineers. This system consists of a compact rule language with a high expressiveness and strong development support. Both elements facilitate rapid development of information extraction applications and improve the general engineering experience, which reduces the necessary efforts and costs when specifying rules.

The advantages and applicability of UIMA Ruta for exploiting context-specific consistencies are illustrated in three case studies. They utilize different engineering approaches for including the consistencies in the information extraction task. Either the recall is increased by finding additional entities with similar composition, or the precision is improved by filtering inconsistent entities. Furthermore, another case study highlights how transformation-based approaches are able to correct preliminary entities using the knowledge about the occurring consistencies.

The approaches of this work based on machine learning rely on Conditional Random Fields, popular probabilistic graphical models for sequence labeling. They take advantage of a consistency model, which is automatically induced during processing the document. The approach based on stacked graphical models utilizes the learnt descriptions as feature functions that have a static meaning for the model, but change their actual function for each document. The other two models extend the graph structure with additional factors dependent on the learnt model of consistency. They include feature functions for consistent and inconsistent entities as well as for additional positions that fulfill the consistencies.

The presented approaches are evaluated in three real-world domains: segmentation of scientific references, template extraction in curricula vitae, and identification and categorization of sections in clinical discharge letters. They are able to achieve remarkable results and provide an error reduction of up to 30% compared to usually applied techniques.
N2  - Diese Arbeit befasst sich mit regelbasierten und probabilistischen Ansätzen der Informationsextraktion, welche kontextspezifische Konsistenzen ausnutzen und somit die Extraktionsgenauigkeit verbessern.
KW  - Information Extraction
KW  - Maschinelles Lernen
KW  - knowledge engineering
Y1  - 2015
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-108352
SN  - 978-3-95826-018-4 (print)
SN  - 978-3-95826-019-1 (online)
PB  - Würzburg University Press
CY  - Würzburg
ER  - 
TY  - THES
A1  - Gründler, Klaus
T1  - A Contribution to the Empirics of Economic Development - The Role of Technology, Inequality, and the State
T1  - Eine empirische Untersuchung der wirtschaftlichen Entwicklung - Die Rolle von Technologien, Ungleichheit und dem Staat
N2  - This dissertation contributes to the empirical analysis of economic development. The continuing poverty in many Sub-Saharan-African countries as well as the declining trend in growth in the advanced economies that was initiated around the turn of the millennium raises a number of new questions which have received little attention in recent empirical studies. Is culture a decisive factor for economic development? Do larger financial markets trigger positive stimuli with regard to incomes, or is the recent increase in their size in advanced economies detrimental to economic growth? What causes secular stagnation, i.e. the reduction in growth rates of the advanced economies observable over the past 20 years? What is the role of inequality in the growth process, and how do governmental attempts to equalize the income distribution affect economic development? And finally: Is the process of democratization accompanied by an increase in living standards? These are the central questions of this doctoral thesis. 

To facilitate the empirical analysis of the determinants of economic growth, this dissertation introduces a new method to compute classifications in the field of social sciences. The approach is based on mathematical algorithms of machine learning and pattern recognition. Whereas the construction of indices typically relies on arbitrary assumptions regarding the aggregation strategy of the underlying attributes, utilization of Support Vector Machines transfers the question of how to aggregate the individual components into a non-linear optimization problem.

Following a brief overview of the theoretical models of economic growth provided in the first chapter, the second chapter illustrates the importance of culture in explaining the differences in incomes across the globe. In particular, if inhabitants have a lower average degree of risk-aversion, the implementation of new technology proceeds much faster compared with countries with a lower tendency towards risk. However, this effect depends on the legal and political framework of the countries, their average level of education, and their stage of development.

The initial wealth of individuals is often not sufficient to cover the cost of investments in both education and new technologies. By providing loans, a developed financial sector may help to overcome this shortage. However, the investigations in the third chapter show that this mechanism is dependent on the development levels of the economies. In poor countries, growth of the financial sector leads to better education and higher investment levels. This effect diminishes along the development process, as intermediary activity is increasingly replaced by speculative transactions. Particularly in times of low technological innovation, an increasing financial sector has a negative impact on economic development. In fact, the world economy is currently in a phase of this kind. Since the turn of the millennium, growth rates in the advanced economies have experienced a multi-national decline, leading to an intense debate about "secular stagnation" initiated at the beginning of 2015. The fourth chapter deals with this phenomenon and shows that the growth potentials of new technologies have been gradually declining since the beginning of the 2000s.

If incomes are unequally distributed, some individuals can invest less in education and technological innovations, which is why the fifth chapter identifies an overall negative effect of inequality on growth. This influence, however, depends on the development level of countries. While the negative effect is strongly pronounced in poor economies with a low degree of equality of opportunity, this influence disappears during the development process. Accordingly, redistributive polices of governments exert a growth-promoting effect in developing countries, while in advanced economies, the fostering of equal opportunities is much more decisive.

The sixth chapter analyzes the growth effect of the political environment and shows that the ambiguity of earlier studies is mainly due to unsophisticated measurement of the degree of democratization. To solve this problem, the chapter introduces a new method based on mathematical algorithms of machine learning and pattern recognition. While the approach can be used for various classification problems in the field of social sciences, in this dissertation it is applied for the problem of democracy measurement. Based on different country examples, the chapter shows that the resulting SVMDI is superior to other indices in modeling the level of democracy. The subsequent empirical analysis emphasizes a significantly positive growth effect of democracy measured via SVMDI.
N2  - Die Dissertation beschäftigt sich mit der statistischen und empirischen Analyse der Determinanten langfristiger Wachstumsprozesse. Die anhaltende Armut vieler Staaten in Subsahara-Afrika sowie die rückläufigen Wachstumsraten der reichen Volkswirtschaften seit Beginn des neuen Jahrtausends werfen eine Reihe neuer Fragen auf, die bislang wenig empirisch erforscht sind. Ist die Kultur eines Landes entscheidend für die Entwicklung der Wohlfahrt? Kann ein entwickelter Finanzsektor Wohlstandssteigerungen auslösen, oder ist der starke Zuwachs der Finanzmärkte, der in den  Industrienationen beobachtet werden kann, schädlich für die Entwicklung? Warum wachsen reiche Volkswirtschaften heute so viel langsamer als noch vor 20 Jahren? Welchen Einfluss nimmt die zunehmende Einkommensungleichheit auf die wirtschaftliche Entwicklung und welchen Effekt haben staatliche Umverteilungsmaßnahmen? Und schließlich: Führen stärkere politische Rechte und mehr Demokratie zu einer Zunahme der Lebensstandards? Dies sind die zentralen Fragestellungen, denen sich die Kapitel dieser Doktorarbeit widmen. 

Um die Analyse der empirischen Ursachen der wirtschaftlichen Entwicklung zu erleichtern, leitet die Dissertation überdies ein neues Verfahren zur Lösung von Klassifikationsproblemen in den Sozialwissenschaften ab. Das Verfahren beruht auf mathematischen Algorithmen zur Mustererkennung und des maschinellen Lernens. Dies bietet neue Möglichkeiten für das Konstruieren von Indizes, die zumeist auf arbiträre Annahmen über die zugrundeliegende Aggregationsfunktion zurückgreifen. Das vorgestellte Verfahren löst dieses Problem, in dem die Aggregation durch Support Vector Machines in ein nicht-lineares Optimierungsproblem überführt wird.

Nach einem kurzen Überblick über die theoretischen Erklärungsansätze der wirtschaftlichen Entwicklung im ersten Kapitel zeigt das zweite Kapitel, dass kulturelle Unterschieden einen Einfluss auf die ökonomische Entwicklung ausüben. Die Ergebnisse implizieren, dass Länder mit einer geringeren Aversion gegen Risiken höhere Wachstumsraten aufweisen, da in diesen Ländern die Implementierung neuer Technologien schneller voranschreitet. Der Effekt ist allerdings abhängig von den rechtlichen und politischen Rahmenbedingungen der Länder, vom durchschnittlichen Bildungsniveau sowie vom Entwicklungsstand. 

In vielen Fällen reichen die Vermögen der Individuen nicht aus, um Investitionen in Bildung, Kapital und neue Technologien zu stemmen. Durch die Bereitstellung von Krediten kann ein entwickelter Finanzsektor diesen Engpass überwinden. Die Untersuchungen des dritten Kapitels zeigen allerdings, dass dieser Mechanismus abhängig ist von den Entwicklungsniveaus der Volkswirtschaften. In armen Ländern führt ein Anstieg des Finanzsektors zu besserer Bildung und höheren Investitionen. Dieser Effekt nimmt jedoch über den Entwicklungsprozess ab, da die Intermediationstätigkeit zunehmend durch spekulative Geschäfte ersetzt wird. Insbesondere in Zeiten mit geringen technologischen Neuerungen wirkt ein wachsender Finanzsektor negativ auf die ökonomische Entwicklung. Aktuell befindet sich die Weltökonomie in einer solchen Phase, was verbunden mit einem multinationalen Rückgang der Wachstumsraten seit Anfang 2015 als "säkulare Stagnation" diskutiert wird. Das vierte Kapitel befasst sich intensiv mit diesem Phänomen und zeigt, dass die gegenwärtigen Wachstumspotenziale neuer Technologien seit Beginn der 2000er Jahre zunehmend auslaufen. 

Sind die Einkommen ungleich verteilt, so können einige Individuen weniger Investitionen in Bildung und technologische Neuerungen durchführen. Tatsächlich weist das fünfte Kapitel auf einen insgesamt negativen Effekt der Ungleichheit auf das Wachstum hin. Dieser Einfluss ist allerdings abhängig vom Entwicklungsstand der Länder. Während der negative Effekt in armen Volkswirtschaften mit einem geringen Maß an Chancengleichheit stark ausgeprägt ist, verschwindet dieser Einfluss mit zunehmendem Entwicklungsniveau. Entsprechend wirkt direkte staatliche Umverteilung vor allem in unterentwickelten Ländern wachstumsfördernd. In entwickelten Nationen ist hingegen die Schaffung von Chancengleichheit entscheidend. 

Das sechste Kapitel analysiert den Wachstumseffekt des politischen Umfelds und zeigt, dass die Ambivalenz früherer Studien auf die mangelhafte Abbildung des Demokratiegrades zurückzuführen ist. Zur Lösung dieses Problems wird ein neues Verfahren vorgeschlagen, das auf mathematischen Algorithmen des maschinellen Lernens basiert. Das Verfahren kann in verschiedenen Bereichen der Sozialwissenschaften eingesetzt werden und wird in der Arbeit zur Klassifikation des Demokratiegrades angewandt. Auf Basis verschiedener Länderbeispiele wird deutlich, dass der resultierende SVMDI anderen Indizes in der Modellierung des Demokratiegrades überlegen ist. Die anschließende empirische Analyse betont einen signifikant positiven Effekt des SVMDI auf das Wirtschaftswachstum.
N2  - Why are some nations rich and others poor? What are the sources of long-run economic development and growth? How can living standards be increased? In this book, Klaus Gründler empirically analyses these central economic questions and puts a particular emphasis on the role of technology, inequality, and political institutions. To substantiate his empirical studies, he introduces a new method to compute composite measures and indices that is based on mathematical algorithms from the field of machine learning.
KW  - Wirtschaftsentwicklung
KW  - Wirtschaftsstruktur
KW  - Sozioökonomisches System
KW  - Inequality
KW  - Economic Growth
KW  - Machine Learning
KW  - Empirical Economics
KW  - Ungleichheit
KW  - Wirtschaftswachstum
KW  - Maschinelles Lernen
KW  - Makroökonomie
KW  - Empirische Wirtschaftsforschung
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-141520
SN  - 978-3-95826-072-6 (Print)
SN  - 978-3-95826-073-3 (Online)
N1  - Parallel erschienen als Druckausgabe in Würzburg University Press, 978-3-95826-072-6, 41,80 EUR.
PB  - Würzburg University Press
CY  - Würzburg
ET  - 1. Auflage
ER  - 
TY  - THES
A1  - Kreikenbohm, Annika Franziska Eleonore
T1  - Classifying the high-energy sky with spectral timing methods
T1  - Klassifizierung des Hochenergiehimmels mittels spektralen und Zeitreihen-Methoden
N2  - Active galactic nuclei (AGN) are among the brightest and most frequent sources on the extragalactic X-ray and gamma-ray sky. Their central supermassive blackhole generates an enormous luminostiy through accretion of the surrounding gas. A few AGN harbor highly collimated, powerful jets in which are observed across the entire electromagnetic spectrum. If their jet axis is seen in a small angle to our line-of-sight (these objects are then called blazars) jet emission can outshine any other emission component from the system. Synchrotron emission from electrons and positrons clearly prove the existence of a relativistic leptonic component in the jet plasma. But until today, it is still an open question whether heavier particles, especially protons, are accelerated as well. If this is the case, AGN would be prime candidates for extragalactic PeV neutrino sources that are observed on Earth. Characteristic signatures for protons can be hidden in the variable high-energy emission of these objects. In this thesis I investigated the broadband emission, particularly the high-energy X-ray and gamma-ray emission of jetted AGN to address open questions regarding the particle acceleration and particle content of AGN jets, or the evolutionary state of the AGN itself. For this purpose I analyzed various multiwavelength observations from optical to gamma-rays over a period of time using a combination of state-of-the-art spectroscopy and timing analysis. By nature, AGN are highly variable. Time-resolved spectral analysis provided a new dynamic view of these sources which helped to determine distinct emission processes that are difficult to disentangle from spectral or timing methods alone. 

Firstly, this thesis tackles the problem of source classification in order to facilitate the search for interesting sources in large data archives and characterize new transient sources. I use spectral and timing analysis methods and supervised machine learning algorithms to design an automated source classification pipeline. The test and training sample were based on the third XMM-Newton point source catalog (3XMM-DR6). The set of input features for the machine learning algorithm was derived from an automated spectral modeling of all sources in the 3XMM-DR6, summing up to 137200 individual detections. The spectral features were complemented by results of a basic timing analysis as well as multiwavelength information provided by catalog cross-matches. The training of the algorithm and application to a test sample showed that the definition of the training sample was crucial: Despite oversampling minority source types with synthetic data to balance out the training sample, the algorithm preferably predicted majority source types for unclassified objects. In general, the training process showed that the combination of spectral, timing and multiwavelength features performed best with the lowest misclassification rate of \\sim2.4\\%. 

The methods of time-resolved spectroscopy was then used in two studies to investigate the properties of two individual AGN, Mrk 421 and PKS 2004-447, in detail. Both objects belong to the class of gamma-ray emitting AGN. A very elusive sub-class are gamma-ray emitting Narrow Line Seyfert 1 (gNLS1) galaxies. These sources have been discovered as gamma-ray sources only recently in 2010 and a connection to young radio galaxies especially compact steep spectrum (CSS) radio sources has been proposed. The only gNLS1 on the Southern Hemisphere so far is PKS2004-447 which lies at the lower end of the luminosity distribution of gNLS1. The source is part of the TANAMI VLBI program and is regularly monitored at radio frequencies. In this thesis, I presented and analyzed data from a dedicated multiwavelength campaign of PKS 2004-447 which I and my collaborators performed during 2012 and which was complemented by individual observations between 2013 and 2016. I focussed on the detailed analysis of the X-ray emission and a first analysis of its broadband spectrum from radio to gamma-rays. Thanks to the dynamic SED I could show that earlier studies misinterpreted the optical spectrum of the source which had led to an underestimation of the high-energy emission and had ignited a discussion on the source class. I show that the overall spectral properties are consistent with dominating jet emission comprised of synchrotron radiation and inverse Compton scattering from accelerated leptons. The broadband emission is very similar to typical examples of a certain type of blazars (flat-spectrum radio quasars) and does not present any unusual properties in comparison. Interestingly, the VLBI data showed a compact jet structure and a steep radio spectrum consistent with a compact steep spectrum source. This classified PKS 2004-447 as a young radio galaxy, in which the jet is still developing. 

The investigation of Mrk 421 introduced the blazar monitoring program which I and collaborator have started in 2014. By observing a blazar simultaneously from optical, X-ray and gamma-ray bands during a VHE outbursts, the program aims at providing extraordinary data sets to allow for the generation of a series of dynamical SEDs of high spectral and temporal resolution. The program makes use of the dense VHE monitoring by the FACT telescope. So far, there are three sources in our sample that we have been monitoring since 2014. I presented the data and the first analysis of one of the brightest and most variable blazar, Mrk 421, which had a moderate outbreak in 2015 and triggered our program for the first time. With spectral timing analysis, I confirmed a tight correlation between the X-ray and TeV energy bands, which indicated that these jet emission components are causally connected. I discovered that the variations of the optical band were both correlated and anti-correlated with the high-energy emission, which suggested an independent emission component. Furthermore, the dynamic SEDs showed two different flaring behaviors, which differed in the presence or lack of a peak shift of the low-energy emission hump. These results further supported the hypothesis that more than one emission region contributed to the broadband emission of Mrk 421 during the observations. 

Overall,the studies presented in this thesis demonstrated that time-resolved spectroscopy is a powerful tool to classify both source types and emission processes of astronomical objects, especially relativistic jets in AGN, and thus provide a deeper understanding and new insights of their physics and properties.
N2  - Aktive Galaxienkerne (active galactic nuclei, AGN) gehören zu den hellsten und häufigsten Quellen am extragalaktischen Röntgen- und Gammastrahlenhimmel. Das zentrale supermassive Schwarze Loch erzeugt durch Akkretion des umgebenden Gases eine enorme Leuchtkraft. Einige AGN beherbergen zudem stark kollimierte, leuchtstarke Jets die im gesamten elektromagnetischen Spektrum beobachtet werden. Betrachtet man Jets unter einem kleinen Winkel zu unserer Sichtlinie (sog. Blazare), kann die Jetemission die anderen Strahlungskomponenten des Systems überstrahlen. Die Synchrotronemission von relativistischen Elektronen und Positronen beweist eindeutig die Existenz einer leptonischen Plasmakomponente in Jets. Bis heute aber ist es offen, ob auch schwerere Teilchen, insbesondere Protonen, beschleunigt werden können. Wenn dies der Fall ist, wären AGN vielversprechende Quellen für extragalaktische PeV-Neutrinos, die auf der Erde beobachtet werden. Charakteristische Merkmale von Protonen könnten in der variablen hochenergetischen Emission dieser Objekte verborgen sein. In dieser Arbeit untersuchte ich daher die Breitbandemission, insbesondere die hochenergetische Röntgen- und Gammastrahlung, von AGN mit Jets, um verschiedene offene Fragen bezüglich Jets in AGN zu adressieren. Thematisiert werden sowohl die Teilchenbeschleunigung, wie auch die Plasmakomposition von Jets, oder der evolutionäre Zustand eines AGN selbst. Zu diesem Zweck analysierte ich mittels einer Kombination aus hochmodernen Methoden der Spektroskopie und Zeitreihenanalyse verschiedene Wellenlängenbeobachtungen, die das Breitbandspektrum von optischen bis Gammastrahlen zu verschiedenen Zeitpunkten abdeckten. Von Natur aus sind AGN sehr variabel. Die Kombination der zeitaufgelöster Spektroskopie lieferte somit eine neue dynamische Sicht auf diese Quellen, die dazu beitrug, unterschiedliche Emissionsprozesse zu bestimmen, die sich nur schwer von getrennten Spektral- oder Zeitreihen-Verfahren unterscheiden lassen.

Diese Arbeit behandelt zunächst das Problem der Quellenklassifikation, um die Suche nach interessanten Quellen in großen Datenarchiven zu erleichtern und neue variable Quellen zu charakterisieren. Ich nutzte die Zeit- und Spektralanalyse Methoden sowie überwachte Machine-Learning Algorithmen, um ein automatisiertes Verfahren zur Quellklassifizierung zu entwerfen. Das Auswahl der Test- und Trainingsbeispiele basierte auf dem dritten XMM-Newton Punktquellenkatalog (3XMM-DR6). Die Attribute für den maschinellen Lernalgorithmus wurden aus einer automatisierten Spektralmodellierung aller Quellen in dem 3XMM-DR6 definiert, die über 137200 individuelle Detektionen umfasst. Die spektralen Eigenschaften wurden durch Ergebnisse einer einfachen Zeitreihenanalyse sowie durch Multiwellenlängeninformationen ergänzt. Letztere ergaben sich aus den Abgleichen verschiedener Quellkataloge. Das Trainieren des Algorithmus und die Anwendung auf die Testquellen zeigte, dass die Definition der Trainingsquellen für die Vorhersage von Quellklassen unbekannter Quellen entscheidend war. Obwohl das Trainingsset mittels der Generierung von synthetischen Daten von Minderheitsquellklassen ausbalanciert wurde, prognostizierte der Algorithmus bevorzugt jene Quellentypen für nicht klassifizierte Objekte, die am häufigsten im ursprünglichen Trainingsset vorkamen. Im Allgemeinen zeigte der Trainingsprozess, dass die Kombination von Spektral-, Zeitreihen- und Multiwellenlängenattributen bei der Klassifizierung einer großen Menge von unbekannten Objekten mit der niedrigsten Fehlklassifizierungsrate von \\sim2.4\\% am besten war.

Die zeitaufgelöste Spektroskopie wurde in zwei zusätzlichen Studien an einzelnen außergewöhnlichen Quellen, Mrk 421 und PKS 2004-447, benutzt, um deren Eigenschaften im Detail zu untersuchen. Beide Objekte gehören zu der Klasse von AGN, die Gammastrahlung emittieren. Eine sehr schwer fassbare Unterklasse sind sogenannte $\gamma$-emittierende Narrow Line Seyfert 1 (gNLS1) Galaxien. Gammastrahlung dieser Quellen wurden erst im Jahr 2010 entdeckt. Man vermutet eine Verbindung zu jungen Radiogalaxien, insbesondere zu kompakten Radioquellen mit einem steilen Radiospektrum (sog. Compact Steep Spectrum sources, CSS). Die bisher einzige bestätigte gNLS1 auf der südlichen Hemisphäre ist PKS 2004-447, die am unteren Ende der Helligkeitsverteilung von gNLS1 liegt. Die Quelle ist Teil des TANAMI VLBI-Programms und wird regelmäßig im Radiobereich beobachtet. In dieser Dissertation präsentiere ich Ergebnisse einer Multiwellenlängen-Kampagne von PKS 2004-447, die ich und meine Kollegen 2012 durchgeführt haben und die durch weitere Einzelbeobachtungen zwischen 2013 und 2016 ergänzt wurde. Ich konzentrierte mich auf die detaillierte Analyse der Röntgenemission und eine erste Analyse der dynamischen Multiwellenlängen Spektralen Energieverteilung (spectral energy distribution, SED) von Radio bis Gammastrahlung. Dank der dynamischen SED konnte ich zeigen, dass frühere Studien das optische Spektrum der Quelle falsch interpretierten, was zu einer Unterschätzung der hochenergetischen Emission führte und eine Diskussion über die Quellklasse entfachte. In meiner Studie zeigte ich, dass die gesamten spektralen Eigenschaften konsistent durch Jetemission erklärt werden kann, die Synchrotronstrahlung und Inverse Comptonstreuung von beschleunigten Leptonen umfasst. Die Breitbandemission ist typischen Exemplaren von Flachspektrum-Radio-Quasaren sehr ähnlich und weist im Vergleich keine ungewöhnlichen Eigenschaften auf. Interessanterweise zeigten die hochaufgelöste Radiobeobachtungen eine kompakte Jet-Struktur und ein steiles Radiospektrum, das mit den Eigenschaften von kompakten Quellen mit steilem Radiospektrum (compact steep spectrum sources, CSS sources) verträglich ist. Dies klassifiziert PKS 2004-447 als junge Radiogalaxie, in der sich der Jet noch entwickelt. 

Die Untersuchung von Mrk 421 führt das Blazar-Monitoring-Program ein, das ich und meine Mitarbeiter 2014 begonnen haben. Dabei werden Blazare während eines Strahlungsausbruchs im TeV Energieband gleichzeitig in den optischen, Röntgen- und Gammastrahlenbändern beobachtet. Das Ziel des Programms ist die Erzeugung von dynamischen SEDs von hoher spektraler und zeitlicher Auflösung zu ermöglichen. Das Programm nutzt dafür die dichte Überwachung von Blazaren im TeV Bereich durch das FACT-Teleskop. Seit 2014 sind drei markante Blazare Teil unseres Programms. 2015 zeigte eine unserer beobachteten Quellen, Mrk 421, einen moderaten Ausbruch im TeV Band und löste damit unser Programm zum ersten Mal aus. In dieser Arbeit habe ich unsere Beobachtungen im Optischen bis TeV Bereich dieser Quelle benutzt um eine erste zeitaufgelöste Spektroskopie der dynamischen SED dieser Quelle vorzunehmen.  Die Analyse der Flussvariabilität in unterschiedlichen Energiebändern bestätigte eine enge Korrelation zwischen der Röntgen- und TeV-Emission. Dies deutet darauf hin, dass diese Strahlungskomponenten im Jet kausal verknüpft sind. Ich entdeckte, dass die Helligkeitsvariationen im optischen Band scheinbar sowohl korreliert als auch antikorreliert mit der Strahlung im Röntgen- und Gammaband waren, was auf eine unabhängige Emissionskomponente hinwies. Darüber hinaus zeigten die dynamischen SEDs zwei unterschiedliche Verhalten bei Strahlungsausbrüchen, die sich im Vorhandensein oder Fehlen einer Verschiebung des niederenergetischen Emissionsmaximums unterschieden. Diese Ergebnisse unterstützen die Hypothese, dass während der Beobachtungen von Mrk 421 mehr als eine Emissionsregion zu dessen Breitbandemission beigetragen haben.


Die Studien in dieser Arbeit zeigen, dass die zeitaufgelöste Spektroskopie ein leistungsfähiges Werkzeug ist, um sowohl Quellentypen als auch die Emissionsprozesse einzelner Quellen zu klassifizieren und so ein tieferes Verständnis und neue Einblicke in die Physik und Eigenschaften astronomischer Objekte, insbesondere relativistischer Jets in AGN zu ermöglichen.
KW  - Astronomie
KW  - Astroteilchenphysik
KW  - Röntgenastronomie
KW  - Maschinelles Lernen
KW  - Multiwavelength Astronomy
KW  - High-energy astrophysics
Y1  - 2019
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-192054
ER  - 
TY  - THES
A1  - Stein, Nikolai Werner
T1  - Advanced Analytics in Operations Management and Information Systems: Methods and Applications
T1  - Advanced Analytics im Operations Management und Information Systems: Methoden und Anwendungen
N2  - Die digitale Transformation der Gesellschaft birgt enorme Potenziale für Unternehmen aus allen Sektoren.
Diese verfügen aufgrund neuer Datenquellen, wachsender Rechenleistung und verbesserter Konnektivität über rasant steigende Datenmengen. Um im digitalen Wandel zu bestehen und Wettbewerbsvorteile in Bezug auf Effizienz und Effektivität heben zu können müssen Unternehmen die verfügbaren Daten nutzen und datengetriebene Entscheidungsprozesse etablieren. Dennoch verwendet die Mehrheit der Firmen lediglich Tools aus dem Bereich „descriptive analytics“ und nur ein kleiner Teil der Unternehmen macht bereits heute von den Möglichkeiten der „predictive analytics“ und „prescriptive analytics“ Gebrauch. Ziel dieser Dissertation, die aus vier inhaltlich abgeschlossenen Teilen besteht, ist es, Einsatzmöglichkeiten von „prescriptive analytics“ zu identifizieren.

Da prädiktive Modelle eine wesentliche Voraussetzung für „prescriptive analytics“ sind, thematisieren die ersten beiden Teile dieser Arbeit Verfahren aus dem Bereich „predictive analytics.“ Ausgehend von Verfahren des maschinellen Lernens wird zunächst die Entwicklung eines prädiktiven Modells am Beispiel der Kapazitäts- und Personalplanung bei einem IT-Beratungsunternehmen veranschaulicht. Im Anschluss wird eine Toolbox für Data Science Anwendungen entwickelt. Diese stellt Entscheidungsträgern Richtlinien und bewährte Verfahren für die Modellierung, das Feature Engineering und die Modellinterpretation zur Verfügung. Der Einsatz der Toolbox wird am Beispiel von Daten eines großen deutschen Industrieunternehmens veranschaulicht.

Verbesserten Prognosen, die von leistungsfähigen Vorhersagemodellen bereitgestellt werden, erlauben es Entscheidungsträgern in einigen Situationen bessere Entscheidungen zu treffen und auf diese Weise einen Mehrwert zu generieren. In vielen komplexen Entscheidungssituationen ist die Ableitungen von besseren Politiken aus zur Verfügung stehenden Prognosen jedoch oft nicht trivial und erfordert die Entwicklung neuer Planungsalgorithmen. Aus diesem Grund fokussieren sich die letzten beiden Teile dieser Arbeit auf Verfahren aus dem Bereich „prescriptive analytics“. Hierzu wird zunächst analysiert, wie die Vorhersagen prädiktiver Modelle in präskriptive Politiken zur Lösung eines „Optimal Searcher Path Problem“ übersetzt werden können. Trotz beeindruckender Fortschritte in der Forschung im Bereich künstlicher Intelligenz sind die Vorhersagen prädiktiver Modelle auch heute noch mit einer gewissen Unsicherheit behaftet. Der letzte Teil dieser Arbeit schlägt einen präskriptiven Ansatz vor, der diese Unsicherheit berücksichtigt. Insbesondere wird ein datengetriebenes Verfahren für die Einsatzplanung im Außendienst entwickelt. Dieser Ansatz integriert Vorhersagen bezüglich der Erfolgswahrscheinlichkeiten und die Modellqualität des entsprechenden Vorhersagemodells in ein „Team Orienteering Problem.“
N2  - The digital transformation of business and society presents enormous potentials for companies across all sectors. Fueled by massive advances in data generation, computing power, and connectivity, modern organizations have access to gigantic amounts of data. Companies seek to establish data-driven decision cultures to leverage competitive advantages in terms of efficiency and effectiveness. While most companies focus on descriptive tools such as reporting, dashboards, and advanced visualization, only a small fraction already leverages advanced analytics (i.e., predictive and prescriptive analytics) to foster data-driven decision-making today. Therefore, this thesis set out to investigate potential opportunities to leverage prescriptive analytics in four different independent parts. 

As predictive models are an essential prerequisite for prescriptive analytics, the first two parts of this work focus on predictive analytics. Building on state-of-the-art machine learning techniques, we showcase the development of a predictive model in the context of capacity planning and staffing at an IT consulting company. Subsequently, we focus on predictive analytics applications in the manufacturing sector. More specifically, we present a data science toolbox providing guidelines and best practices for modeling, feature engineering, and model interpretation to manufacturing decision-makers. We showcase the application of this toolbox on a large data-set from a German manufacturing company.

Merely using the improved forecasts provided by powerful predictive models enables decision-makers to generate additional business value in some situations. However, many complex tasks require elaborate operational planning procedures. Here, transforming additional information into valuable actions requires new planning algorithms. Therefore, the latter two parts of this thesis focus on prescriptive analytics. To this end, we analyze how prescriptive analytics can be utilized to determine policies for an optimal searcher path problem based on predictive models. While rapid advances in artificial intelligence research boost the predictive power of machine learning models, a model uncertainty remains in most settings. The last part of this work proposes a prescriptive approach that accounts for the fact that predictions are imperfect and that the arising uncertainty needs to be considered. More specifically, it presents a data-driven approach to sales-force scheduling. Based on a large data set, a model to predictive the benefit of additional sales effort is trained. Subsequently, the predictions, as well as the prediction quality, are embedded into the underlying team orienteering problem to determine optimized schedules.
KW  - Operations Management
KW  - Managementinformationssystem
KW  - Entscheidungsunterstützung
KW  - Maschinelles Lernen
KW  - Big Data
KW  - Advanced Analytics
KW  - Prescriptive Analytics
KW  - Predictive Analytics
KW  - Entscheidungsunterstützungssystem
KW  - Wirtschaftsinformatik
KW  - Tourenplanung
Y1  - 2019
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-192668
ER  - 
TY  - THES
A1  - Pfitzner, Christian
T1  - Visual Human Body Weight Estimation with Focus on Clinical Applications
T1  - Optische Körpergewichtsschätzung für medizinische Anwendungen
N2  - It is the aim of this thesis to present a visual body weight estimation, which is suitable for medical applications. A typical scenario where the estimation of the body weight is essential, is the emergency treatment of stroke patients: In case of an ischemic stroke, the patient has to receive a body weight adapted drug, to solve a blood clot in a vessel. The accuracy of the estimated weight influences the outcome of the therapy directly. However, the treatment has to start as early as possible after the arrival at a trauma room, to provide sufficient treatment. Weighing a patient takes time, and the patient has to be moved. Furthermore, patients are often not able to communicate a value for their body weight due to their stroke symptoms.  Therefore, it is state of the art that physicians guess the body weight. A patient receiving a too low dose has an increased risk that the blood clot does not dissolve and brain tissue is permanently damaged. Today, about one-third gets an insufficient dosage. In contrast to that, an overdose can cause bleedings and further complications. Physicians are aware of this issue, but a reliable alternative is missing.  

The thesis presents state-of-the-art principles and devices for the measurement and estimation of body weight in the context of medical applications. While scales are common and available at a hospital, the process of weighing takes too long and can hardly be integrated into the process of stroke treatment. Sensor systems and algorithms are presented in the section for related work and provide an overview of different approaches.  
The here presented system -- called Libra3D -- consists of a computer installed in a real trauma room, as well as visual sensors integrated into the ceiling. For the estimation of the body weight, the patient is on a stretcher which is placed in the field of view of the sensors.  The three sensors -- two RGB-D and a thermal camera -- are calibrated intrinsically and extrinsically. Also, algorithms for sensor fusion are presented to align the data from all sensors which is the base for a reliable segmentation of the patient. 
 
A combination of state-of-the-art image and point cloud algorithms is used to localize the patient on the stretcher. The challenges in the scenario with the patient on the bed is the dynamic environment, including other people or medical devices in the field of view.  
After the successful segmentation, a set of hand-crafted features is extracted from the patient's point cloud. These features rely on geometric and statistical values and provide a robust input to a subsequent machine learning approach. The final estimation is done with a previously trained artificial neural network. 

The experiment section offers different configurations of the previously extracted feature vector. Additionally, the here presented approach is compared to state-of-the-art methods; the patient's own assessment, the physician's guess, and an anthropometric estimation.  Besides the patient's own estimation, Libra3D outperforms all state-of-the-art estimation methods: 95 percent of all patients are estimated with a relative error of less than 10 percent to ground truth body weight. It takes only a minimal amount of time for the measurement, and the approach can easily be integrated into the treatment of stroke patients, while physicians are not hindered.
Furthermore, the section for experiments demonstrates two additional applications: The extracted features can also be used to estimate the body weight of people standing, or even walking in front of a 3D camera. Also, it is possible to determine or classify the BMI of a subject on a stretcher. A potential application for this approach is the reduction of the radiation dose of patients being exposed to X-rays during a CT examination.  
During the time of this thesis, several data sets were recorded. These data sets contain the ground truth body weight, as well as the data from the sensors. They are available for the collaboration in the field of body weight estimation for medical applications.
N2  - Diese Arbeit zeigt eine optische Körpergewichtsschätzung, welche für medizinische Anwendungen geeignet ist. Ein gängiges Szenario, in dem eine Gewichtsschätzung benötigt wird, ist die Notfallbehandlung von Schlaganfallpatienten: Falls ein ischämischer Schlaganfall vorliegt, erhält der Patient ein auf das Körpergewicht abgestimmtes Medikament, um einen Thrombus in einem Gefäß aufzulösen. Die Genauigkeit der Gewichtsschätzung hat direkten Einfluss auf den Erfolg der Behandlung. Hinzu kommt, dass die Behandlung so schnell wie möglich nach der Ankunft im Krankenhaus erfolgen muss, um eine erfolgreiche Behandlung zu garantieren. Das Wiegen eines Patienten ist zeitaufwändig und der Patient müsste hierfür bewegt werden. Des Weiteren können  viele Patienten aufgrund des Schlaganfalls nicht ihr eigenes Gewicht mitteilen. Daher ist es heutzutage üblich, dass Ärzte das Gewicht schätzen. Erhält ein Patient eine zu geringe Dosis, steigt das Risiko, dass sich der Thrombus nicht auflöst und das Gehirngewebe dauerhaft geschädigt bleibt. Eine Überdosis kann dagegen zu Blutungen und weiteren Komplikationen führen. Ein Drittel der Patienten erhält heutzutage eine unzureichende Dosis. Ärzte sind sich dessen bewusst, aber derzeit gibt es kein alternatives Vorgehen. 

Diese Arbeit präsentiert Elemente und Geräte zur Messung und Schätzung des Körpergewichts, 
die im medizinischen Umfeld verwendet werden. 
Zwar sind Waagen im Krankenhaus üblich, aufgrund des engen Zeitfensters für die Behandlung können sie aber nur schlecht in den Behandlungsablauf von Schlaganfallpatienten integriert werden. Der Abschnitt zum Stand der Technik zeigt verschiedene Sensorsysteme und Algorithmen. Das hier gezeigte System -- genannt Libra3D -- besteht aus einem Computer im Behandlungsraum, sowie den in der Decke integrierten optischen Sensoren. Für die Gewichtsschätzung befindet sich der Patient auf einer Liege im Blickfeld der Sensoren. Die drei Sensoren -- zwei RGB-D- und einer Wärmebildkamera -- sind intrinsisch und extrinsisch kalibriert. 

Des Weiteren werden Algorithmen zur Sensorfusion vorgestellt, welche die Daten für eine erfolgreiche Segmentierung des Patienten zusammenführen. Eine Kombination aus verschiedenen gängigen Bildverarbeitungs- und Punktwolken-Algorithmen lokalisiert den Patienten auf der Liege. Die Herausforderung in diesem Szenario mit dem Patienten auf dem Bett sind ständige Veränderungen, darunter auch andere Personen oder medizinische Geräte im Sichtfeld. Nach der erfolgreichen Segmentierung werden Merkmale von der Punktwolke des Patienten extrahiert. Diese Merkmale beruhen auf geometrischen und statistischen Eigenschaften und bieten robuste Werte für das nachfolgende maschinelle Lernverfahren. Die Schätzung des Gewichts basiert letztlich auf einem zuvor trainierten künstlichen neuronalen Netz. 

Das Kapitel zu den Experimenten zeigt verschiedene Kombinationen von Werten aus dem Merkmalsvektor. Zusätzlich wird der Ansatz mit Methoden aus dem Stand der Technik verglichen: der Schätzung des Patienten, des Arztes, und einer anthropometrischen Schätzung. Bis auf die eigene Schätzung des Patienten übertrifft Libra3D hierbei alle anderen Methoden: 95 Prozent aller Schätzungen weisen einen relativen Fehler von weniger als 10 Prozent zum realen Körpergewicht auf. Dabei benötigt das System wenig Zeit für eine Messung und kann einfach in den Behandlungsablauf von Schlaganfallpatienten integriert werden, ohne Ärzte zu behindern. Des Weiteren zeigt der Abschnitt für Experimente zwei weitere Anwendungen: Die extrahierten Merkmale können dazu verwendet werden das Gewicht von stehenden und auch laufenden Personen zu schätzen, die sich vor einer 3D-Kamera befinden. Darüber hinaus ist es auch möglich den BMI von Patienten auf einer Liege zu bestimmen. Diese kann die Strahlenexposition bei CT-Untersuchungen beispielsweise verringern. Während dieser Dissertation sind einige Datensätze entstanden. Sie enthalten das reale Gewicht, sowie die dazugehörigen Sensordaten. Die Datensätze sind für die Zusammenarbeit im Bereich der Körpergewichtsschätzung für medizinische Anwendungen verfügbar.
T3  - Forschungsberichte in der Robotik = Research Notes in Robotics - 18 
KW  - Punktwolke
KW  - Maschinelles Lernen
KW  - Schlaganfall
KW  - Körpergewicht
KW  - Bildverarbeitung
KW  - 3D Point Cloud Processing
KW  - Image Processing
KW  - Stroke
KW  - Human Body Weight
KW  - Kinect
KW  - Machine Learning
KW  - Sensor Fusion
KW  - Segmentation
KW  - Perception
Y1  - 2019
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-174842
SN  - 978-3-945459-27-0 (online)
ER  -