TY - THES A1 - Nilla, Jaya Santosh Chakravarthy T1 - An Integrated Knowledgebase and Network Analysis Applied on Platelets and Other Cell Types T1 - Integrierte Datenbank und Netzwerkanalysen zur Untersuchung von Blutplättchen und anderen Zelltypen N2 - Systems biology looks for emergent system effects from large scale assemblies of molecules and data, for instance in the human platelets. However, the computational efforts in all steps before such insights are possible can hardly be under estimated. In practice this involves numerous programming tasks, the establishment of new database systems but as well their maintenance, curation and data validation. Furthermore, network insights are only possible if strong algorithms decipher the interactions, decoding the hidden system effects. This thesis and my work are all about these challenges. To answer this requirement, an integrated platelet network, PlateletWeb, was assembled from different sources and further analyzed for signaling in a systems biological manner including multilevel data integration and visualization. PlateletWeb is an integrated network database and was established by combining the data from recent platelet proteome and transcriptome (SAGE) studies. The information on protein-protein interactions and kinase-substrate relationships extracted from bioinformatical databases as well as published literature were added to this resource. Moreover, the mass spectrometry-based platelet phosphoproteome was combined with site-specific phosphorylation/ dephosphorylation information and then enhanced with data from Phosphosite and complemented by bioinformatical sequence analysis for site-specific kinase predictions. The number of catalogued platelet proteins was increased by over 80% as compared to the previous version. The integration of annotations on kinases, protein domains, transmembrane regions, Gene Ontology, disease associations and drug targets provides ample functional tools for platelet signaling analysis. The PlateletWeb resource provides a novel systems biological workbench for the analysis of platelet signaling in the functional context of protein networks. By comprehensive exploration, over 15000 phosphorylation sites were found, out of which 2500 have the corresponding kinase associations. The network motifs were also investigated in this anucleate cell and characterize signaling modules based on integrated information on phosphorylation and protein-protein interactions. Furthermore, many algorithmic approaches have been introduced, including an exact approach (heinz) based on integer linear programming. At the same time, the concept of semantic similarities between two genes using Gene Ontology (GO) annotations has become an important basis for many analytical approaches in bioinformatics. Assuming that a higher number of semantically similar gene functional annotations reflect biologically more relevant interactions, an edge score was devised for functional network analysis. Bringing these two approaches together, the edge score, based on the GO similarity, and the node score, based on the expression of the proteins in the analyzed cell type (e.g. data from proteomic studies), the functional module as a maximum-scoring sub network in large protein-protein interaction networks was identified. This method was applied to various proteome datasets (different types of blood cells, embryonic stem cells) to identify protein modules that functionally characterize the respective cell type. This scalable method allows a smooth integration of data from various sources and retrieves biologically relevant signaling modules. N2 - Systembiologie sucht nach Systemeffekten in großflächigen Anordnungen von Molekülen und Daten, beispielsweise in menschlichen Blutplättchen. Allerdings kann der Rechenaufwand in den Schritten, die für solche Einsichten nötig sind, kaum unterschätzt werden. In der Praxis umfasst dies zahlreiche Programmieraufgaben, die Einrichtung neuer Datenbanksysteme, sowie deren Wartung, aber auch die Pflege und Validierung der vorgehaltenen Daten. Zudem sind Netzwerkeinsichten nur möglich, wenn effiziente und gute Algorithmen für versteckte Systemeffekte oder auch codierende Wechselwirkungen entschlüsseln. Diese Dissertation und meine Arbeit sind auf diese Herausforderungen konzentriert. Um diese Anforderung zu erfüllen, wurde ein integriertes Thrombozytennetzwerk, PlateletWeb, aus verschiedenen Quellen zusammengestellt und weiterhin auf Signalverarbeitung und –weitergabe einschließlich mehrstufiger Datenintegration und Visualisierung systembiologisch analysiert. PlateletWeb ist eine integrierte Netzwerkdatenbank, die durch die Kombination von Daten aus den neuesten Thrombozyten Proteom und Transkriptom (SAGE) Studien etabliert wurde. Information über Protein-Protein-Wechselwirkungen und Kinase-Substrat-Paaren wurde aus bioinformatischen Datenbanken hinzugefügt, extrahierte Daten aus der veröffentlichten Literatur ergänzten dies weiter. Darüber hinaus wurde das Blutplättchen-Phosphoproteom aufgrund von Daten aus der Massenspektroskopie mit ortsspezifischen Phosphorylierungs-/ Dephosphorylierungsdaten kombiniert. Ergänzt wurde dies um Daten aus der Datenbank Phosphosite und durch bioinformatische Sequenzanalyse unter Nutzung ortsspezifischer Kinasevorhersagen. Die Zahl der katalogisierten Thrombozytenproteine wurde im Vergleich mit der Vorversion von 2008 um mehr als 80% erhöht (beinahe Verdoppelung der Daten, insbesondere aber neue, zusätzliche Datenkategorien, z.B. über Pharmaka, Phosphorylierung, Gen-Ontologie, daneben auch weitere Validierung und Pflege der vorhandenen Daten). Die neue Integration von Annotationen für Kinasen, Proteindomänen, Transmembranregionen, Gene Ontology, Krankheitsbezüge und Azneimittelziele bietet neue, mächtige Werkzeuge für die funktionelle und systembiologische Analyse von Thrombozytensignalwegen. Die PlateletWeb Datenbank liefert eine neuartige systembiologische Werkbank zur Analyse von medizinisch relevanten Blutplättchensignalen (z.B. Plättchenaktivierung bei Thrombose, Hämostase etc.) im funktionellen Zusammenhang von Proteinnetzwerken. Durch umfassende Untersuchungen wurden über 15000 Phosphorylierungsstellen identifiziert, von denen 2500 einer Kinase zugeordnet werden konnten. Netzwerkmotive wurden auch in diesen Zellen ohne Zellkern untersucht und neue und interessante Signalmodule charakterisiert. Dies war nur durch die integrierte Information über Phosphorylierung und Protein-Protein-Wechselwirkungen möglich. Darüber hinaus wurden zahlreiche algorithmische Ansätze verwand, darunter ein exakter Ansatz zur Bayesschen Analyse von Interaktionsnetzwerken (Heinz) basierend auf linearer Integer-Programmierung. Gleichzeitig hat sich unser Konzept der semantischen Ähnlichkeiten zwischen zwei Genen basiert auf Gene Ontology (GO) Annotationen etabliert und ist eine wichtige Grundlage für viele analytische Ansätze in der Bioinformatik geworden. Unter der Annahme, dass eine höhere Anzahl von semantisch ähnlichen funktionellen Genannotationen biologisch relevantere Interaktionen reflektieren, wurde eine Bewertung der Kanten für funktionelle Netzwerkanalyse entwickelt. Die Kombination beider Ansäte, die Kantenbewertung, basierend auf der GO-Ähnlichkeit und die Netzknotenbewertung bezogen auf die Expression der Proteine ermöglichte in den analysierten Zelltypen (unter Nutzung von Daten z.B. aus Proteomstudien) die Identifizierung funktioneller Module als maximal bewertete Subnetzwerke in großen Proteinnetzwerken. Dieses Verfahren wurde an verschiedenen Proteomdatensätzen getestet (verschiedene Arten von Blutzellen, embryonale Stammzellen), um Proteinmodule zu identifizieren, die funktionell den jeweiligen Zelltyp charakterisieren. Weitere Ansätze der Methode erfassen die Analyse von quantitativen Phosphoproteom-Daten zur Identifizierung des Signalflusses in einem Kinase-Substrat Netzwerk. Diese skalierbaren Ansätze ermöglichen eine reibungslose Integration von Daten aus verschiedenen Quellen und liefern biologisch relevante Signalmodule. KW - Systembiologie KW - Netzwerkanalyse KW - Thrombozyt KW - Integrated Knowledgebase KW - Network Analysis KW - Platelets KW - Integrierte Datenbank KW - Blutplättchen Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-85730 ER - TY - JOUR A1 - Jahn, Daniel A1 - Schramm, Sabine A1 - Schnölzer, Martina A1 - Heilmann, Clemens J. A1 - de Koster, Chris G. A1 - Schütz, Wolfgang A1 - Benavente, Ricardo A1 - Alsheimer, Manfred T1 - A truncated lamin A in the Lmna\(^{−/−}\) mouse line: Implications for the understanding of laminopathies JF - Nucleus N2 - During recent years a number of severe clinical syndromes, collectively termed laminopathies, turned out to be caused by various, distinct mutations in the human LMNA gene. Arising from this, remarkable progress has been made to unravel the molecular pathophysiology underlying these disorders. A great benefit in this context was the generation of an A-type lamin deficient mouse line (Lmna\(^{−/−}\)) by Sullivan and others,1 which has become one of the most frequently used models in the field and provided profound insights to many different aspects of A-type lamin function. Here, we report the unexpected finding that these mice express a truncated Lmna gene product on both transcriptional and protein level. Combining different approaches including mass spectrometry, we precisely define this product as a C-terminally truncated lamin A mutant that lacks domains important for protein interactions and post-translational processing. Based on our findings we discuss implications for the interpretation of previous studies using Lmna\(^{−/−}\) mice and the concept of human laminopathies. KW - nuclear organization KW - A-type lamins KW - LMNA mutations KW - laminopathies KW - nuclear envelope KW - nuclear lamina Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-127281 VL - 3 IS - 5 ER - TY - JOUR A1 - Weiße, Sebastian A1 - Heddergott, Niko A1 - Heydt, Matthias A1 - Pflästerer, Daniel A1 - Maier, Timo A1 - Haraszti, Tamas A1 - Grunze, Michael A1 - Engstler, Markus A1 - Rosenhahn, Axel T1 - A Quantitative 3D Motility Analysis of Trypanosoma brucei by Use of Digital In-line Holographic Microscopy JF - PLoS One N2 - We present a quantitative 3D analysis of the motility of the blood parasite Trypanosoma brucei. Digital in-line holographic microscopy has been used to track single cells with high temporal and spatial accuracy to obtain quantitative data on their behavior. Comparing bloodstream form and insect form trypanosomes as well as mutant and wildtype cells under varying external conditions we were able to derive a general two-state-run-and-tumble-model for trypanosome motility. Differences in the motility of distinct strains indicate that adaption of the trypanosomes to their natural environments involves a change in their mode of swimming. KW - african trypanosomes KW - actin cortex KW - flagellum KW - tracking KW - surface KW - models Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-130666 VL - 7 IS - 5 ER - TY - JOUR A1 - Staiger, Christine A1 - Cadot, Sidney A1 - Kooter, Raul A1 - Dittrich, Marcus A1 - Müller, Tobias A1 - Klau, Gunnar W. A1 - Wessels, Lodewyk F. A. T1 - A Critical Evaluation of Network and Pathway-Based Classifiers for Outcome Prediction in Breast Cancer JF - PLoS One N2 - Recently, several classifiers that combine primary tumor data, like gene expression data, and secondary data sources, such as protein-protein interaction networks, have been proposed for predicting outcome in breast cancer. In these approaches, new composite features are typically constructed by aggregating the expression levels of several genes. The secondary data sources are employed to guide this aggregation. Although many studies claim that these approaches improve classification performance over single genes classifiers, the gain in performance is difficult to assess. This stems mainly from the fact that different breast cancer data sets and validation procedures are employed to assess the performance. Here we address these issues by employing a large cohort of six breast cancer data sets as benchmark set and by performing an unbiased evaluation of the classification accuracies of the different approaches. Contrary to previous claims, we find that composite feature classifiers do not outperform simple single genes classifiers. We investigate the effect of (1) the number of selected features; (2) the specific gene set from which features are selected; (3) the size of the training set and (4) the heterogeneity of the data set on the performance of composite feature and single genes classifiers. Strikingly, we find that randomization of secondary data sources, which destroys all biological information in these sources, does not result in a deterioration in performance of composite feature classifiers. Finally, we show that when a proper correction for gene set size is performed, the stability of single genes sets is similar to the stability of composite feature sets. Based on these results there is currently no reason to prefer prognostic classifiers based on composite features over single genes classifiers for predicting outcome in breast cancer. KW - modules KW - protein-interaction networks KW - expression signature KW - classification KW - set KW - metastasis KW - stability KW - survival KW - database KW - markers Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-131323 VL - 7 IS - 4 ER -