TY - THES A1 - Karl, Stefan T1 - Control Centrality in Non-Linear Biological Networks T1 - Kontrollzentralität in nichtlinearen biologischen Netzwerken N2 - Biological systems such as cells or whole organisms are governed by complex regulatory networks of transcription factors, hormones and other regulators which determine the behavior of the system depending on internal and external stimuli. In mathematical models of these networks, genes are represented by interacting “nodes” whose “value” represents the activity of the gene. Control processes in these regulatory networks are challenging to elucidate and quantify. Previous control centrality metrics, which aim to mathematically capture the ability of individual nodes to control biological systems, have been found to suffer from problems regarding biological plausibility. This thesis presents a new approach to control centrality in biological networks. Three types of network control are distinguished: Total control centrality quantifies the impact of gene mutations and identifies potential pharmacological targets such as genes involved in oncogenesis (e.g. zinc finger protein GLI2 or bone morphogenetic proteins in chondrocytes). Dynamic control centrality describes relaying functions as observed in signaling cascades (e.g control in mouse colon stem cells). Value control centrality measures the direct influence of the value of the node on the network (e.g. Indian hedgehog as an essential regulator of proliferation in chondrocytes). Well-defined network manipulations define all three centralities not only for nodes, but also for the interactions between them, enabling detailed insights into network pathways. The calculation of the new metrics is made possible by substantial computational improvements in the simulation algorithms for several widely used mathematical modeling paradigms for genetic regulatory networks, which are implemented in the regulatory network simulation framework Jimena created for this thesis. Applying the new metrics to biological networks and artificial random networks shows how these mathematical concepts correspond to experimentally verified gene functions and signaling pathways in immunity and cell differentiation. In contrast to controversial previous results even from the Barabási group, all results indicate that the ability to control biological networks resides in only few driver nodes characterized by a high number of connections to the rest of the network. Autoregulatory loops strongly increase the controllability of the network, i.e. its ability to control itself, and biological networks are characterized by high controllability in conjunction with high robustness against mutations, a combination that can be achieved best in sparsely connected networks with densities (i.e. connections to nodes ratios) around 2.0 - 3.0. The new concepts are thus considerably narrowing the gap between network science and biology and can be used in various areas such as system modeling, plausibility trials and system analyses. Medical applications discussed in this thesis include the search for oncogenes and pharmacological targets, as well their functional characterization. N2 - Biologische Systeme wie Zellen aber auch ganze Organismen werden durch ein komplexes Netzwerk von Transkriptionsfaktoren, Hormonen und anderen Regulatoren kontrolliert, welche das Verhalten des Systems in Abhängigkeit von internen und externen Einflüssen steuern. In mathematischen Modellen dieser Netzwerke werden Gene durch „Knoten“ repräsentiert, deren „Wert“ die Aktivität des Gens wiederspiegelt. Kontrollvorgänge in diesen Regulationsnetzwerken sind schwierig zu quantifizieren. Existierende Maße für die Kontrollzentralität, d.h. die Fähigkeit einzelner Knoten biologische Systeme zu kontrollieren, zeigen vor allem Probleme mit der biologischen Plausibilität der Ergebnisse. Diese Dissertation stellt eine neue Definition der Kontrollzentralität vor. Dabei werden drei Typen der Kontrollzentralität unterschieden: Totale Kontrollzentralität quantifiziert den Einfluss von Mutationen eines Gens und hilft mögliche pharmakologische Ziele wie etwa Onkogene (z. B. das Zinkfingerprotein GLI2 oder Bone Morphogenetic Proteins in Chondrozyten) zu identifizieren. Dynamische Kontrollzentralität beschreibt signalweiterleitende Funktionen in Signalkaskaden (z. B. in Kontrollprozessen in Stammzellen des Mauskolons). Wert-Kontrollzentralität misst den Einfluss des Werts des Knotens (zum Beispiel die Rolle von Indian hedgehog als essentieller Regulator der Chondrozytenproliferation). Durch gezielte Manipulation von Netzwerken können die Zentralitäten nicht nur für Knoten, sondern auch für die Interaktionen zwischen ihnen bestimmt werden, was detaillierte Einblicke in Netzwerkpfade erlaubt. Möglich wird die Berechnung der neuen Maße durch substantielle Verbesserungen der Simulationsalgorithmen mehrerer häufig verwendeter mathematischer Muster für Genregulationsnetzwerke, welche in der für diese Dissertation entwickelten Software Jimena implementiert wurden. Durch die Anwendung der neuen Metriken auf biologische Netzwerke und künstliche Zufallsnetzwerke kann gezeigt werden, dass die mathematischen Konzepte experimentell bestätigte Funktionen von Genen und Signalpfaden im Immunsystem und der Zelldifferenzierung korrekt wiedergeben. Im Gegensatz zu umstrittenen Ergebnissen der Forschungsgruppe Barabási zeigt sich hier, dass die Fähigkeit, biologische Netzwerke zu kontrollieren, in nur wenigen Knoten konzentriert ist, welche sich vor allem durch viele Verbindungen zum Rest des Netzwerks auszeichnen. Knoten, welche ihre eigene Expression beeinflussen, steigern die Fähigkeit eines Netzwerkes sich selbst zu kontrollieren (Kontrollierbarkeit), und biologische Netzwerke zeichnen sich durch hohe Kontrollierbarkeit bei gleichzeitig hoher Resistenz gegenüber Mutationen aus. Diese Kombination kann am besten durch eher schwach verbundene Netzwerke erreicht werden, bei denen auf einen Knoten nur etwa 2 bis 3 Verbindungen kommen. Die neuen Konzepte schlagen so eine Brücke zwischen Netzwerkwissenschaften und Biologie, und sind in einer Vielzahl von Gebieten wie der Modellierung von Systemen sowie der Überprüfung ihrer Plausibilität und ihrer Analyse anwendbar. Medizinische Anwendungen, auf welche in dieser Dissertation eingegangen wird, sind zum Beispiel die Suche nach Onkogenen und pharmakologischen Zielen, aber auch deren funktionelle Analyse. KW - Bioinformatik KW - Genregulation KW - Nichtlineare Differentialgleichung KW - Genetic regulatory networks KW - Control centrality Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-150838 ER - TY - THES A1 - Pischimarov, Jordan Ivanov T1 - Bioinformatische Methoden zur Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen T1 - Bioinformatics approaches for the detection and classification of somatic mutations in hematological malignancies N2 - Die Sequenzierungstechnologien entwickeln sich stetig weiter, dies ermöglicht eine zuvor nicht erreichte Ausbeute an experimentellen Daten und auch an Neuentwicklungen von zuvor nicht realisierbaren Experimenten. Zugleich werden spezifische Datenbanken, Algorithmen und Softwareprogramme entwickelt, um die neu entstandenen Daten zu analysieren. Während der Untersuchung bioinformatischer Methoden für die Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen, zeigte sich eine hohe Vielfalt an alternativen Softwaretools die für die jeweiligen Analyseschritte genutzt werden können. Derzeit existiert noch kein Standard zur effizienten Analyse von Mutationen aus Next-Generation-Sequencing (NGS)-Daten. Die unterschiedlichen Methoden und Pipelines generieren Kandidaten, die zum größten Anteil in allen Ansätzen identifiziert werden können, jedoch werden Software spezifische Kandidaten nicht einheitlich detektiert. Um eine einheitliche und effiziente Analyse von NGS-Daten durchzuführen war im Rahmen dieser Arbeit die Entwicklung einer benutzerfreundlichen und einheitlichen Pipeline vorgesehen. Hierfür wurden zunächst die essentiellen Analysen wie die Identifizierung der Basen, die Alignierung und die Identifizierung der Mutationen untersucht. Des Weiteren wurden unter Berücksichtigung von Effizienz und Performance diverse verfügbare Softwaretools getestet, ausgewertet und sowohl mögliche Verbesserungen als auch Erleichterungen der bisherigen Analysen vorgestellt und diskutiert. Durch Mitwirken in Konsortien wie der klinischen Forschergruppe 216 (KFO 216) und International Cancer Genome Consortium (ICGC) oder auch bei Haus-internen Projekten wurden Datensätze zu den Entitäten Multiples Myelom (MM), Burkitt Lymphom (BL) und Follikuläres Lymphom (FL) erstellt und analysiert. Die Selektion geeigneter Softwaretools und die Generierung der Pipeline basieren auf komparativen Analysen dieser Daten, sowie auf geteilte Ergebnisse und Erfahrungen in der Literatur und auch in Foren. Durch die gezielte Entwicklung von Skripten konnten biologische und klinische Fragestellungen bearbeitet werden. Hierzu zählten eine einheitliche Annotation der Gennamen, sowie die Erstellung von Genmutations-Heatmaps mit nicht Variant-Calling-File (VCF)-Syntax konformen Dateien. Des Weiteren konnten nicht abgedeckte Regionen des Genoms in den NGS-Daten identifiziert und analysiert werden. Neue Projekte zur detaillierten Untersuchung der Verteilung von wiederkehrender Mutationen und Funktionsassays zu einzelnen Mutationskandidaten konnten basierend auf den Ergebnissen initiiert werden. Durch eigens erstellte Python-Skripte konnte somit die Funktionalität der Pipeline erweitert werden und zu wichtigen Erkenntnissen bei der biologischen Interpretation der Sequenzierungsdaten führen, wie beispielsweise zu der Detektion von drei neuen molekularen Subgruppen im MM. Die Erweiterungen, der in dieser Arbeit entwickelten Pipeline verbesserte somit die Effizienz der Analyse und die Vergleichbarkeit unserer Daten. Des Weiteren konnte durch die Erstellung eines eigenen Skripts die Analyse von unbeachteten Regionen in den NGS-Daten erfolgen. N2 - The sequencing technologies, while still being under further development, render it possible to develop novel experiments and allow the generation of larger amounts of utilizable data. At the same time novel software tools, databases and algorithms are developed to analyze these larger amounts of data. The analysis of somatic mutations in hematological malignancies showed that a high variety of alternative software tools can be used for different analysis steps. Furthermore there is currently no standardized procedure for the efficient identification and analysis of mutations in NGS data. The different pipeline and methods are, for the most part, able to identify the same mutation candidates, however there are software specific candidates which are not called by all pipelines. The scope of this dissertation was therefore to develop a user-friendly pipeline which is able to call candidate mutations uniformly and efficiently. For this purpose necessary analysis steps including base calling, alignment generation and variant calling were investigated. Furthermore available software tools were tested and evaluated regarding their efficiency and performance. Possible improvements of these software tools and previously performed analysis are explained and discussed in this work. NGS data sets of the different cancer entities multiple myeloma (MM), Burkitt lymphoma (BL) and follicular lymphoma (FL) were generated and analyzed within the framework of cooperate projects like the International Cancer Genome Consortium (ICGC) and the Clinical Research Group 216 (KFO) as well as for internal projects. The development of the pipeline and selection of suitable software tools is based on the comparative analysis of the generated data sets, as well as previously described results and experiences in literature and forums. The selective development of certain python scripts enabled the evaluation of novel biological and clinical questions by standardizing gene names in the annotation step, generating heat- maps of non-standardized VCF-files as well as the identification and analysis of uncovered regions in NGS data sets. This work and the obtained results thereby provide the groundwork for further projects e.g. the analysis of the distribution of recurrent mutations or the functional analysis of specific mutation candidates. This extensions of the developed pipeline with python scripts helped to improve the efficiency and comparability of the NGS data. The interpretation of the NGS data with the extended script for example led to the discovery of three distinct molecular subgroups in MM. Furthermore the generation of the novel python scripts helped to analyze uncovered regions in the NGS data sets.  KW - Pipeline-Rechner KW - somatische Mutationen KW - Sequenzierung KW - Bioinformatik KW - Identifizierungspipeline KW - Next Generation Sequencing KW - Variantcalling KW - Bioinformatic KW - somatic mutations KW - DNS-Sequenz KW - Somatische Mutation Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-147773 ER -