TY - THES A1 - Ankenbrand, Markus Johannes T1 - Squeezing more information out of biological data - development and application of bioinformatic tools for ecology, evolution and genomics T1 - Mehr aus biologischen Daten herausholen - Entwicklung und Anwendung bioinformatischer Programme für Ökologie, Evolution und Genomik N2 - New experimental methods have drastically accelerated the pace and quantity at which biological data is generated. High-throughput DNA sequencing is one of the pivotal new technologies. It offers a number of novel applications in various fields of biology, including ecology, evolution, and genomics. However, together with those opportunities many new challenges arise. Specialized algorithms and software are required to cope with the amount of data, often requiring substantial training in bioinformatic methods. Another way to make those data accessible to non-bioinformaticians is the development of programs with intuitive user interfaces. In my thesis I developed analyses and programs to tackle current problems with high-throughput data in biology. In the field of ecology this covers the establishment of the bioinformatic workflow for pollen DNA meta-barcoding. Furthermore, I developed an application that facilitates the analysis of ecological communities in the context of their traits. Information from multiple public databases have been aggregated and can now be mapped automatically to existing community tables for interactive inspection. In evolution the new data are used to reconstruct phylogenetic trees from multiple genes. I developed the tool bcgTree to automate this process for bacteria. Many plant genomes have been sequenced in current years. Sequencing reads of those projects also contain data from the chloroplasts. The tool chloroExtractor supports the targeted extraction and analysis of the chloroplast genome. To compare the structure of multiple genomes specialized software is required for calculation and visualization of the relationships. I developed AliTV to address this. In contrast to existing programs for this task it allows interactive adjustments of produced graphics. Thus, facilitating the discovery of biologically relevant information. Another application I developed helps to analyze transcriptomes even if no reference genome is present. This is achieved by aggregating the different pieces of information, like functional annotation and expression level, for each transcript in a web platform. Scientists can then search, filter, subset, and visualize the transcriptome. Together the methods and tools expedite insights into biological systems that were not possible before. N2 - Neue experimentelle Methoden haben die Geschwindigkeit und Masse, in der biologische Daten generiert werden, in den letzten Jahren enorm gesteigert. Eine zentrale neue Technologie ist die Hochdurchsatzsequenzierung von DNA. Diese Technik eröffnet eine ganze Reihe Anwendungsmöglichkeiten in vielen Bereichen der Biologie, einschließlich der Ökologie, Evolution und Genomik. Neben den neuen Möglichkeiten treten jedoch auch neue Herausforderungen auf. So bedarf es spezialisierter Algorithmen und Computerprogramme, um mit der Masse an Daten umgehen zu können. Diese erfordern in der Regel ein fundiertes Training in bioinformatischen Methoden. Ein Weg, die Daten auch Wissenschaftlern ohne diesen Hintergrund zugänglich zu machen ist die Entwicklung von Programmen, die sich intuitiv bedienen lassen. In meiner Doktorarbeit habe ich Analysen und Programme entwickelt, um einige aktuelle Probleme mit Hochdurchsatzdaten in der Biologie zu lösen. Im Bereich der Ökologie umfasst das die Etablierung der bioinformatischen Methode, um Pollen DNA Metabarcoding durchzuführen. Darüberhinaus habe ich eine Anwendung entwickelt, die es ermöglicht Artgemeinschaften im Kontext ihrer Eigenschaften zu erforschen. Dazu wurden Informationen aus diversen öffentlichen Datenbanken zusammen getragen. Diese können nun automatisch auf bestehende Projekte übertragen und interaktiv analysiert werden. Im Bereich der Evolution ermöglichen die neuen Daten phylogenetische Berechnungen mit multiplen Genen durchzuführen. Um dies für Bakterien zu automatisieren habe ich das Programm bcgTree entwickelt. In den letzten Jahren wurden viele pflanzliche Genome sequenziert. Die Sequenzdaten des pflanzlichen Genoms enthalten auch die des Chloroplasten. Das Programm chloroExtractor unterstützt die gezielte Analyse des Chloroplasten Genoms. Um jedoch die Struktur mehrerer Genome miteinander vergleichen zu können, wird spezielle Software benötigt, die den Vergleich berechnen und visuell darstellen kann. Daher habe ich das Programm AliTV entwickelt. Im Gegensatz zu bestehenden Programmen erlaubt AliTV interaktive Anpassungen der erzeugten Grafik. Das erleichtert es die relevanten Informationen zu finden. Ein weiteres von mir entwickeltes Programm hilft dabei Transkriptom Daten zu analysieren, auch wenn kein Referenzgenom vorliegt. Dazu werden Informationen zu jedem Transkript, z.B. Funktion und Expressionslevel, in einer Webanwendung aggregiert. Forscher können diese durchsuchen, filtern und graphisch darstellen. Zusammen eröffnen die entwickelten Methoden und Programme die Möglichkeit, Erkenntnisse über biologische Systeme zu erlangen, die bislang nicht möglich waren. KW - bioinformatics KW - research software KW - ecology KW - evolution KW - genomics Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-156344 ER - TY - THES A1 - Beisser, Daniela T1 - Integrated functional analysis of biological networks T1 - Integrierte funktionelle Analyse biologischer Netzwerke N2 - In recent years high-throughput experiments provided a vast amount of data from all areas of molecular biology, including genomics, transcriptomics, proteomics and metabolomics. Its analysis using bioinformatics methods has developed accordingly, towards a systematic approach to understand how genes and their resulting proteins give rise to biological form and function. They interact with each other and with other molecules in highly complex structures, which are explored in network biology. The in-depth knowledge of genes and proteins obtained from high-throughput experiments can be complemented by the architecture of molecular networks to gain a deeper understanding of biological processes. This thesis provides methods and statistical analyses for the integration of molecular data into biological networks and the identification of functional modules, as well as its application to distinct biological data. The integrated network approach is implemented as a software package, termed BioNet, for the statistical language R. The package includes the statistics for the integration of transcriptomic and functional data with biological networks, the scoring of nodes and edges of these networks as well as methods for subnetwork search and visualisation. The exact algorithm is extensively tested in a simulation study and outperforms existing heuristic methods for the calculation of this NP-hard problem in accuracy and robustness. The variability of the resulting solutions is assessed on perturbed data, mimicking random or biased factors that obscure the biological signal, generated for the integrated data and the network. An optimal, robust module can be calculated using a consensus approach, based on a resampling method. It summarizes optimally an ensemble of solutions in a robust consensus module with the estimated variability indicated by confidence values for the nodes and edges. The approach is subsequently applied to two gene expression data sets. The first application analyses gene expression data for acute lymphoblastic leukaemia (ALL) and differences between the subgroups with and without an oncogenic BCR/ABL gene fusion. In a second application gene expression and survival data from diffuse large B-cell lymphomas are examined. The identified modules include and extend already existing gene lists and signatures by further significant genes and their interactions. The most important novelty is that these genes are determined and visualised in the context of their interactions as a functional module and not as a list of independent and unrelated transcripts. In a third application the integrative network approach is used to trace changes in tardigrade metabolism to identify pathways responsible for their extreme resistance to environmental changes and endurance in an inactive tun state. For the first time a metabolic network approach is proposed to detect shifts in metabolic pathways, integrating transcriptome and metabolite data. Concluding, the presented integrated network approach is an adequate technique to unite high-throughput experimental data for single molecules and their intermolecular dependencies. It is flexible to apply on diverse data, ranging from gene expression changes over metabolite abundances to protein modifications in a combination with a suitable molecular network. The exact algorithm is accurate and robust in comparison to heuristic approaches and delivers an optimal, robust solution in form of a consensus module with confidence values. By the integration of diverse sources of information and a simultaneous inspection of a molecular event from different points of view, new and exhaustive insights into biological processes can be acquired. N2 - In den letzten Jahren haben Hochdurchsatz-Experimente gewaltige Mengen an molekularbiologischen Daten geliefert, angefangen mit dem ersten sequenzierten Genom von Haemophilus influenzae im Jahr 1995 und dem menschlichen Genom im Jahr 2001. Mittlerweile umfassen die resultierenden Daten neben der Genomik die Bereiche der Transkriptomik, Proteomik und Metabolomik. Die Analyse der Daten mithilfe von bioinformatischen Methoden hat sich entsprechend mit verändert und weiterentwickelt. Durch neuartige, systembiologische Ansätze versucht man zu verstehen, wie Gene und die aus ihnen resultierenden Proteine, biologische Formen und Funktionen entstehen lassen. Dabei interagieren sie miteinander und mit anderen Molekülen in hoch komplexen Strukturen, welche durch neue Ansätze der Netzwerkbiologie untersucht werden. Das tiefgreifende Wissen über einzelne Moleküle, verfügbar durch Hochdurchsatz-Technologien, kann komplementiert werden durch die Architektur und dynamischen Interaktionen molekularer Netzwerke und somit ein umfassenderes Verständnis biologischer Prozesse ermöglichen. Die vorliegende Dissertation stellt Methoden und statistische Analysen zur Integration molekularer Daten in biologische Netzwerke, Identifikation robuster, funktionaler Subnetzwerke sowie die Anwendung auf verschiedenste biologische Daten vor. Der integrative Netzwerkansatz wurde als ein Softwarepaket, BioNet, in der statistischen Programmiersprache R implementiert. Das Paket beinhaltet statistische Verfahren zur Integration transkriptomischer und funktionaler Daten, die Gewichtung von Knoten und Kanten in biologischen Netzwerken sowie Methoden zur Suche signifikanter Bereiche, Module, und deren Visualisierung. Der exakte Algorithmus wird ausführlich in einer Simulationsstudie getestet und übertrifft heuristische Methoden zur Lösung dieses NP-vollständigen Problems in Genauigkeit und Robustheit. Die Variabilität der resultierenden Lösungen wird bestimmt anhand von gestörten integrierten Daten und gestörten Netzwerken, welche zufällige und verzerrende Einflüsse darstellen, die die Daten verrauschen. Ein optimales, robustes Modul kann durch einen Konsensusansatz bestimmt werden. Basierend auf einer wiederholten Stichprobennahme der integrierten Daten, wird ein Ensemble von Lösungen erstellt, aus welchem sich das robuste und optimale Konsensusmodul berechnen lässt. Zusätzlich erlaubt dieser Ansatz eine Schätzung der Variabilität des Konsensusmoduls und die Berechnung von Konfidenzwerte für Knoten und Kanten. Der Ansatz wird anschließend auf zwei Genexpressionsdatensätze angewandt. Die erste Anwendung untersucht Genexpressionsdaten für akute lymphoblastische Leukämie (ALL) und analysiert Unterschiede in Subgruppen mit und ohne BRC/ABL Genfusion. Die zweite Anwendung wertet Genexpressions- und Lebenszeitdaten für diffuse großzellige B-Zell Lymphome (DLBCL) aus, beruhend auf molekularen Unterschieden zwischen zwei DLBCL Subtypen mit unterschiedlicher Malignität. In einer dritten Anwendung wird der integrierte Netzwerkansatz benutzt, um Veränderungen im Metabolismus von Tardigraden aufzuspüren und Signalwege zu identifizieren, welche für die extreme Anpassungsfähigkeit an wechselnde Umweltbedingungen und Überdauerung in einem inaktiven Tönnchenstadium verantwortlich sind. Zum ersten Mal wird dafür ein metabolischer Netzwerkansatz vorgeschlagen, der metabolische Veränderungen durch die Integration von metabolischen und transkriptomischen Daten bestimmt. Abschließend ist zu bemerken, dass die präsentierte integrierte Netzwerkanalyse eine adäquate Technik ist, um experimentelle Daten aus Hochdurchsatz-Methoden, die spezialisiert auf eine Molekülart sind, mit ihren intermolekularen Wechselwirkungen und Abhängigkeiten in Verbindung zu bringen. Sie ist flexibel in der Anwendung auf verschiedenste Daten, von der Analyse von Genexpressionsveränderungen, über Metabolitvorkommen bis zu Proteinmodifikationen, in Kombination mit einem geeigneten molekularen Netzwerk. Der exakte Algorithmus ist akkurat und robust in Vergleich zu heuristischen Methoden und liefert eine optimale, robuste Lösung in Form eines Konsensusmoduls mit zugewiesenen Konfidenzwerten. Durch die Integration verschiedenster Informationsquellen und gleichzeitige Betrachtung eines biologischen Ereignisses von diversen Blickwinkeln aus, können neue und vollständigere Erkenntnisse physiologischer Prozesse gewonnen werden. KW - Bioinformatik KW - differenzielle Genexpression KW - Bioinformatik KW - Netzwerkanalyse KW - differenzielle Genexpression KW - funktionelle Module KW - bioinformatics KW - networkanalysis KW - differential geneexpression KW - functional modules Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-70150 ER - TY - THES A1 - Schwarz, Roland T1 - Modellierung von Metabolismus, Transkriptom und Zellentwicklung bei Arabidopsis, Listerien und anderen Organismen T1 - Modeling of metabolism, transcriptome and cell development in Arabidopsis, Listeria and other organisms N2 - Im gleichen Maße wie informatisches Wissen mehr und mehr in den wissenschaftlichen Alltag aller Lebenswissenschaften Einzug gehalten hat, hat sich der Schwerpunkt bioinformatischer Forschung in stärker mathematisch und informatisch-orientierte Themengebiete verschoben. Bioinformatik heute ist mehr als die computergestützte Verarbeitung großer Mengen an biologischen Daten, sondern hat einen entscheidenden Fokus auf der Modellierung komplexer biologischer Systeme. Zur Anwendung kommen hierbei insbesondere Theorien aus dem Bereich der Stochastik und Statistik, des maschinellen Lernens und der theoretischen Informatik. In der vorliegenden Dissertation beschreibe ich in Fallstudien die systematische Modellierung biologischer Systeme aus einem informatisch - mathematischen Standpunkt unter Anwendung von Verfahren aus den genannten Teilbereichen und auf unterschiedlichen Ebenen biologischer Abstraktion. Ausgehend von der Sequenzinformation über Transkriptom, Metabolom und deren regulatorischer Interaktion hin zur Modellierung von Populationseffekten werden hierbei aktuelle biologische Fragestellungen mit mathematisch - informatischen Modellen und einer Vielzahl experimenteller Daten kombiniert. Ein besonderer Augenmerk liegt dabei auf dem Vorgang der Modellierung und des Modellbegriffs als solchem im Rahmen moderner bioinformatischer Forschung. Im Detail umfassen die Projekte (mehrere Publikationen) die Entwicklung eines neuen Ansatzes zur Einbettung und Visualisierung von Multiplen Sequenz- und Sequenz-Strukturalignments, illustriert am Beispiel eines Hemagglutininalignments unterschiedlicher H5N1 Varianten, sowie die Modellierung des Transkriptoms von A. thaliana, bei welchem mit Hilfe einer kernelisierten nicht-parametrischen Metaanalyse neue, an der Infektionsabwehr beteiligten, Gene ausfindig gemacht werden konnten. Desweiteren ist uns mit Hilfe unserer Software YANAsquare eine detaillierte Untersuchung des Metabolismus von L. monocytogenes unter Aktivierung des Transkriptionsfaktors prfA gelungen, dessen Vorhersagen durch experimentelle 13C Isotopologstudien belegt werden konnten. In einem Anschlußprojekt war der Zusammenhang zwischen Regulation des Metabolismus durch Regulation der Genexpression und der Fluxverteilung des metabolischen Steady- State-Netzwerks das Ziel. Die Modellierung eines komplexen organismischen Phänotyps, der Zellgrößenentwicklung der Diatomee Pseudo-nitzschia delicatissima, schließt die Untersuchungen ab. N2 - In the same way that informatical knowledge has made its way into almost all areas of research in the Life Sciences, the focus of bioinformatical research has shifted towards topics originating more in the fields of mathematics and theoretical computer science. Bioinformatics today is more than the computer-driven processing of huge amounts of biological data, but it has a special focus on the emphmodelling of complex biological systems. Of special importance hereby are theories from stochastics and statistics, from the field of machine learning and theoretical computer science. In the following dissertation, I describe the systematic modelling of biological systems from an informatical-mathematical point of view in a case studies approach, applying methods from the aforementioned areas of research and on different levels of biological abstraction. Beginning with the sequence information itself, followed by the transcriptome, metabolome and the interaction of both and finally population effects I show how current biological questions can be tackled with mathematical models and combined with a variety of different experimental datasets. A special focus lies hereby on the procedure of modelling and the concept and notion of a model as such in the framework of bioinformatical research. In more detail, the projects contained the development of a new approach for embedding and visualizing Multiple Sequence and Structure Alignments, which was illustrated using a hemagglutinin alignment from different H5N1 variants as an example. Furthermore we investigated the A. thaliana transcriptome by means of a kernelized non-parametric meta-analysis, thus being able to annotate several new genes as pathogen-defense related. Another major part of this work was the modelling of the metabolic network of L. monocytogenes under activation of the transcription factor prfA, establishing predictions which were later verified by experimental 13C isotopologue studies. Following this project we investigated the relationship between the regulation of metabolism by changes in the cellular genexpression patterns and the flux distributions of the metabolic steady-state network. Modelling of a complex organismal property, the cell size development of the planktonic diatom Pseudo-nitzschia delicatissima concludes this work. KW - Bioinformatik KW - Würzburg / Universität / Lehrstuhl für Bioinformatik KW - Modellierung KW - Metabolismus KW - Stoffwechsel KW - Transkriptom KW - Transkriptomanalyse KW - bioinformatics KW - metabolome KW - transcriptome KW - modeling KW - steady-state Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-27622 ER -