TY - THES A1 - Beisser, Daniela T1 - Integrated functional analysis of biological networks T1 - Integrierte funktionelle Analyse biologischer Netzwerke N2 - In recent years high-throughput experiments provided a vast amount of data from all areas of molecular biology, including genomics, transcriptomics, proteomics and metabolomics. Its analysis using bioinformatics methods has developed accordingly, towards a systematic approach to understand how genes and their resulting proteins give rise to biological form and function. They interact with each other and with other molecules in highly complex structures, which are explored in network biology. The in-depth knowledge of genes and proteins obtained from high-throughput experiments can be complemented by the architecture of molecular networks to gain a deeper understanding of biological processes. This thesis provides methods and statistical analyses for the integration of molecular data into biological networks and the identification of functional modules, as well as its application to distinct biological data. The integrated network approach is implemented as a software package, termed BioNet, for the statistical language R. The package includes the statistics for the integration of transcriptomic and functional data with biological networks, the scoring of nodes and edges of these networks as well as methods for subnetwork search and visualisation. The exact algorithm is extensively tested in a simulation study and outperforms existing heuristic methods for the calculation of this NP-hard problem in accuracy and robustness. The variability of the resulting solutions is assessed on perturbed data, mimicking random or biased factors that obscure the biological signal, generated for the integrated data and the network. An optimal, robust module can be calculated using a consensus approach, based on a resampling method. It summarizes optimally an ensemble of solutions in a robust consensus module with the estimated variability indicated by confidence values for the nodes and edges. The approach is subsequently applied to two gene expression data sets. The first application analyses gene expression data for acute lymphoblastic leukaemia (ALL) and differences between the subgroups with and without an oncogenic BCR/ABL gene fusion. In a second application gene expression and survival data from diffuse large B-cell lymphomas are examined. The identified modules include and extend already existing gene lists and signatures by further significant genes and their interactions. The most important novelty is that these genes are determined and visualised in the context of their interactions as a functional module and not as a list of independent and unrelated transcripts. In a third application the integrative network approach is used to trace changes in tardigrade metabolism to identify pathways responsible for their extreme resistance to environmental changes and endurance in an inactive tun state. For the first time a metabolic network approach is proposed to detect shifts in metabolic pathways, integrating transcriptome and metabolite data. Concluding, the presented integrated network approach is an adequate technique to unite high-throughput experimental data for single molecules and their intermolecular dependencies. It is flexible to apply on diverse data, ranging from gene expression changes over metabolite abundances to protein modifications in a combination with a suitable molecular network. The exact algorithm is accurate and robust in comparison to heuristic approaches and delivers an optimal, robust solution in form of a consensus module with confidence values. By the integration of diverse sources of information and a simultaneous inspection of a molecular event from different points of view, new and exhaustive insights into biological processes can be acquired. N2 - In den letzten Jahren haben Hochdurchsatz-Experimente gewaltige Mengen an molekularbiologischen Daten geliefert, angefangen mit dem ersten sequenzierten Genom von Haemophilus influenzae im Jahr 1995 und dem menschlichen Genom im Jahr 2001. Mittlerweile umfassen die resultierenden Daten neben der Genomik die Bereiche der Transkriptomik, Proteomik und Metabolomik. Die Analyse der Daten mithilfe von bioinformatischen Methoden hat sich entsprechend mit verändert und weiterentwickelt. Durch neuartige, systembiologische Ansätze versucht man zu verstehen, wie Gene und die aus ihnen resultierenden Proteine, biologische Formen und Funktionen entstehen lassen. Dabei interagieren sie miteinander und mit anderen Molekülen in hoch komplexen Strukturen, welche durch neue Ansätze der Netzwerkbiologie untersucht werden. Das tiefgreifende Wissen über einzelne Moleküle, verfügbar durch Hochdurchsatz-Technologien, kann komplementiert werden durch die Architektur und dynamischen Interaktionen molekularer Netzwerke und somit ein umfassenderes Verständnis biologischer Prozesse ermöglichen. Die vorliegende Dissertation stellt Methoden und statistische Analysen zur Integration molekularer Daten in biologische Netzwerke, Identifikation robuster, funktionaler Subnetzwerke sowie die Anwendung auf verschiedenste biologische Daten vor. Der integrative Netzwerkansatz wurde als ein Softwarepaket, BioNet, in der statistischen Programmiersprache R implementiert. Das Paket beinhaltet statistische Verfahren zur Integration transkriptomischer und funktionaler Daten, die Gewichtung von Knoten und Kanten in biologischen Netzwerken sowie Methoden zur Suche signifikanter Bereiche, Module, und deren Visualisierung. Der exakte Algorithmus wird ausführlich in einer Simulationsstudie getestet und übertrifft heuristische Methoden zur Lösung dieses NP-vollständigen Problems in Genauigkeit und Robustheit. Die Variabilität der resultierenden Lösungen wird bestimmt anhand von gestörten integrierten Daten und gestörten Netzwerken, welche zufällige und verzerrende Einflüsse darstellen, die die Daten verrauschen. Ein optimales, robustes Modul kann durch einen Konsensusansatz bestimmt werden. Basierend auf einer wiederholten Stichprobennahme der integrierten Daten, wird ein Ensemble von Lösungen erstellt, aus welchem sich das robuste und optimale Konsensusmodul berechnen lässt. Zusätzlich erlaubt dieser Ansatz eine Schätzung der Variabilität des Konsensusmoduls und die Berechnung von Konfidenzwerte für Knoten und Kanten. Der Ansatz wird anschließend auf zwei Genexpressionsdatensätze angewandt. Die erste Anwendung untersucht Genexpressionsdaten für akute lymphoblastische Leukämie (ALL) und analysiert Unterschiede in Subgruppen mit und ohne BRC/ABL Genfusion. Die zweite Anwendung wertet Genexpressions- und Lebenszeitdaten für diffuse großzellige B-Zell Lymphome (DLBCL) aus, beruhend auf molekularen Unterschieden zwischen zwei DLBCL Subtypen mit unterschiedlicher Malignität. In einer dritten Anwendung wird der integrierte Netzwerkansatz benutzt, um Veränderungen im Metabolismus von Tardigraden aufzuspüren und Signalwege zu identifizieren, welche für die extreme Anpassungsfähigkeit an wechselnde Umweltbedingungen und Überdauerung in einem inaktiven Tönnchenstadium verantwortlich sind. Zum ersten Mal wird dafür ein metabolischer Netzwerkansatz vorgeschlagen, der metabolische Veränderungen durch die Integration von metabolischen und transkriptomischen Daten bestimmt. Abschließend ist zu bemerken, dass die präsentierte integrierte Netzwerkanalyse eine adäquate Technik ist, um experimentelle Daten aus Hochdurchsatz-Methoden, die spezialisiert auf eine Molekülart sind, mit ihren intermolekularen Wechselwirkungen und Abhängigkeiten in Verbindung zu bringen. Sie ist flexibel in der Anwendung auf verschiedenste Daten, von der Analyse von Genexpressionsveränderungen, über Metabolitvorkommen bis zu Proteinmodifikationen, in Kombination mit einem geeigneten molekularen Netzwerk. Der exakte Algorithmus ist akkurat und robust in Vergleich zu heuristischen Methoden und liefert eine optimale, robuste Lösung in Form eines Konsensusmoduls mit zugewiesenen Konfidenzwerten. Durch die Integration verschiedenster Informationsquellen und gleichzeitige Betrachtung eines biologischen Ereignisses von diversen Blickwinkeln aus, können neue und vollständigere Erkenntnisse physiologischer Prozesse gewonnen werden. KW - Bioinformatik KW - differenzielle Genexpression KW - Bioinformatik KW - Netzwerkanalyse KW - differenzielle Genexpression KW - funktionelle Module KW - bioinformatics KW - networkanalysis KW - differential geneexpression KW - functional modules Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-70150 ER - TY - JOUR A1 - Beisser, Daniela A1 - Grohme, Markus A. A1 - Kopka, Joachim A1 - Frohme, Marcus A1 - Schill, Ralph O. A1 - Hengherr, Steffen A1 - Dandekar, Thomas A1 - Klau, Gunnar W. A1 - Dittrich, Marcus A1 - Müller, Tobias T1 - Integrated pathway modules using time-course metabolic profiles and EST data from Milnesium tardigradum N2 - Background: Tardigrades are multicellular organisms, resistant to extreme environmental changes such as heat, drought, radiation and freezing. They outlast these conditions in an inactive form (tun) to escape damage to cellular structures and cell death. Tardigrades are apparently able to prevent or repair such damage and are therefore a crucial model organism for stress tolerance. Cultures of the tardigrade Milnesium tardigradum were dehydrated by removing the surrounding water to induce tun formation. During this process and the subsequent rehydration, metabolites were measured in a time series by GC-MS. Additionally expressed sequence tags are available, especially libraries generated from the active and inactive state. The aim of this integrated analysis is to trace changes in tardigrade metabolism and identify pathways responsible for their extreme resistance against physical stress. Results: In this study we propose a novel integrative approach for the analysis of metabolic networks to identify modules of joint shifts on the transcriptomic and metabolic levels. We derive a tardigrade-specific metabolic network represented as an undirected graph with 3,658 nodes (metabolites) and 4,378 edges (reactions). Time course metabolite profiles are used to score the network nodes showing a significant change over time. The edges are scored according to information on enzymes from the EST data. Using this combined information, we identify a key subnetwork (functional module) of concerted changes in metabolic pathways, specific for de- and rehydration. The module is enriched in reactions showing significant changes in metabolite levels and enzyme abundance during the transition. It resembles the cessation of a measurablemetabolism (e.g. glycolysis and amino acid anabolism) during the tun formation, the production of storage metabolites and bioprotectants, such as DNA stabilizers, and the generation of amino acids and cellular components from monosaccharides as carbon and energy source during rehydration. Conclusions: The functional module identifies relationships among changed metabolites (e.g. spermidine) and reactions and provides first insights into important altered metabolic pathways. With sparse and diverse data available, the presented integrated metabolite network approach is suitable to integrate all existing data and analyse it in a combined manner. KW - Milnesium tardigradum KW - Integrated network analysis KW - Functional modules KW - Metabolic profiles KW - Metabolic pathways KW - Trend test Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-75241 ER - TY - JOUR A1 - Förster, Frank A1 - Beisser, Daniela A1 - Grohme, Markus A. A1 - Liang, Chunguang A1 - Mali, Brahim A1 - Siegl, Alexander Matthias A1 - Engelmann, Julia C. A1 - Shkumatov, Alexander V. A1 - Schokraie, Elham A1 - Müller, Tobias A1 - Schnölzer, Martina A1 - Schill, Ralph O. A1 - Frohme, Marcus A1 - Dandekar, Thomas T1 - Transcriptome analysis in tardigrade species reveals specific molecular pathways for stress adaptations JF - Bioinformatics and biology insights N2 - Tardigrades have unique stress-adaptations that allow them to survive extremes of cold, heat, radiation and vacuum. To study this, encoded protein clusters and pathways from an ongoing transcriptome study on the tardigrade \(Milnesium\) \(tardigradum\) were analyzed using bioinformatics tools and compared to expressed sequence tags (ESTs) from \(Hypsibius\) \(dujardini\), revealing major pathways involved in resistance against extreme environmental conditions. ESTs are available on the Tardigrade Workbench along with software and databank updates. Our analysis reveals that RNA stability motifs for \(M.\) \(tardigradum\) are different from typical motifs known from higher animals. \(M.\) \(tardigradum\) and \(H.\) \(dujardini\) protein clusters and conserved domains imply metabolic storage pathways for glycogen, glycolipids and specific secondary metabolism as well as stress response pathways (including heat shock proteins, bmh2, and specific repair pathways). Redox-, DNA-, stress- and protein protection pathways complement specific repair capabilities to achieve the strong robustness of \(M.\) \(tardigradum\). These pathways are partly conserved in other animals and their manipulation could boost stress adaptation even in human cells. However, the unique combination of resistance and repair pathways make tardigrades and \(M.\) \(tardigradum\) in particular so highly stress resistant. KW - RNA KW - expressed sequence tag KW - cluster KW - protein familiy KW - adaption KW - tardigrada KW - transcriptome Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-123089 N1 - This is an open access article. Unrestricted non-commercial use is permitted provided the original work is properly cited. VL - 6 ER -