An Integrated Knowledgebase and Network Analysis Applied on Platelets and Other Cell Types

Integrierte Datenbank und Netzwerkanalysen zur Untersuchung von Blutplättchen und anderen Zelltypen

Please always quote using this URN: urn:nbn:de:bvb:20-opus-85730
  • Systems biology looks for emergent system effects from large scale assemblies of molecules and data, for instance in the human platelets. However, the computational efforts in all steps before such insights are possible can hardly be under estimated. In practice this involves numerous programming tasks, the establishment of new database systems but as well their maintenance, curation and data validation. Furthermore, network insights are only possible if strong algorithms decipher the interactions, decoding the hidden system effects. ThisSystems biology looks for emergent system effects from large scale assemblies of molecules and data, for instance in the human platelets. However, the computational efforts in all steps before such insights are possible can hardly be under estimated. In practice this involves numerous programming tasks, the establishment of new database systems but as well their maintenance, curation and data validation. Furthermore, network insights are only possible if strong algorithms decipher the interactions, decoding the hidden system effects. This thesis and my work are all about these challenges. To answer this requirement, an integrated platelet network, PlateletWeb, was assembled from different sources and further analyzed for signaling in a systems biological manner including multilevel data integration and visualization. PlateletWeb is an integrated network database and was established by combining the data from recent platelet proteome and transcriptome (SAGE) studies. The information on protein-protein interactions and kinase-substrate relationships extracted from bioinformatical databases as well as published literature were added to this resource. Moreover, the mass spectrometry-based platelet phosphoproteome was combined with site-specific phosphorylation/ dephosphorylation information and then enhanced with data from Phosphosite and complemented by bioinformatical sequence analysis for site-specific kinase predictions. The number of catalogued platelet proteins was increased by over 80% as compared to the previous version. The integration of annotations on kinases, protein domains, transmembrane regions, Gene Ontology, disease associations and drug targets provides ample functional tools for platelet signaling analysis. The PlateletWeb resource provides a novel systems biological workbench for the analysis of platelet signaling in the functional context of protein networks. By comprehensive exploration, over 15000 phosphorylation sites were found, out of which 2500 have the corresponding kinase associations. The network motifs were also investigated in this anucleate cell and characterize signaling modules based on integrated information on phosphorylation and protein-protein interactions. Furthermore, many algorithmic approaches have been introduced, including an exact approach (heinz) based on integer linear programming. At the same time, the concept of semantic similarities between two genes using Gene Ontology (GO) annotations has become an important basis for many analytical approaches in bioinformatics. Assuming that a higher number of semantically similar gene functional annotations reflect biologically more relevant interactions, an edge score was devised for functional network analysis. Bringing these two approaches together, the edge score, based on the GO similarity, and the node score, based on the expression of the proteins in the analyzed cell type (e.g. data from proteomic studies), the functional module as a maximum-scoring sub network in large protein-protein interaction networks was identified. This method was applied to various proteome datasets (different types of blood cells, embryonic stem cells) to identify protein modules that functionally characterize the respective cell type. This scalable method allows a smooth integration of data from various sources and retrieves biologically relevant signaling modules.show moreshow less
  • Systembiologie sucht nach Systemeffekten in großflächigen Anordnungen von Molekülen und Daten, beispielsweise in menschlichen Blutplättchen. Allerdings kann der Rechenaufwand in den Schritten, die für solche Einsichten nötig sind, kaum unterschätzt werden. In der Praxis umfasst dies zahlreiche Programmieraufgaben, die Einrichtung neuer Datenbanksysteme, sowie deren Wartung, aber auch die Pflege und Validierung der vorgehaltenen Daten. Zudem sind Netzwerkeinsichten nur möglich, wenn effiziente und gute Algorithmen für versteckte SystemeffekteSystembiologie sucht nach Systemeffekten in großflächigen Anordnungen von Molekülen und Daten, beispielsweise in menschlichen Blutplättchen. Allerdings kann der Rechenaufwand in den Schritten, die für solche Einsichten nötig sind, kaum unterschätzt werden. In der Praxis umfasst dies zahlreiche Programmieraufgaben, die Einrichtung neuer Datenbanksysteme, sowie deren Wartung, aber auch die Pflege und Validierung der vorgehaltenen Daten. Zudem sind Netzwerkeinsichten nur möglich, wenn effiziente und gute Algorithmen für versteckte Systemeffekte oder auch codierende Wechselwirkungen entschlüsseln. Diese Dissertation und meine Arbeit sind auf diese Herausforderungen konzentriert. Um diese Anforderung zu erfüllen, wurde ein integriertes Thrombozytennetzwerk, PlateletWeb, aus verschiedenen Quellen zusammengestellt und weiterhin auf Signalverarbeitung und –weitergabe einschließlich mehrstufiger Datenintegration und Visualisierung systembiologisch analysiert. PlateletWeb ist eine integrierte Netzwerkdatenbank, die durch die Kombination von Daten aus den neuesten Thrombozyten Proteom und Transkriptom (SAGE) Studien etabliert wurde. Information über Protein-Protein-Wechselwirkungen und Kinase-Substrat-Paaren wurde aus bioinformatischen Datenbanken hinzugefügt, extrahierte Daten aus der veröffentlichten Literatur ergänzten dies weiter. Darüber hinaus wurde das Blutplättchen-Phosphoproteom aufgrund von Daten aus der Massenspektroskopie mit ortsspezifischen Phosphorylierungs-/ Dephosphorylierungsdaten kombiniert. Ergänzt wurde dies um Daten aus der Datenbank Phosphosite und durch bioinformatische Sequenzanalyse unter Nutzung ortsspezifischer Kinasevorhersagen. Die Zahl der katalogisierten Thrombozytenproteine wurde im Vergleich mit der Vorversion von 2008 um mehr als 80% erhöht (beinahe Verdoppelung der Daten, insbesondere aber neue, zusätzliche Datenkategorien, z.B. über Pharmaka, Phosphorylierung, Gen-Ontologie, daneben auch weitere Validierung und Pflege der vorhandenen Daten). Die neue Integration von Annotationen für Kinasen, Proteindomänen, Transmembranregionen, Gene Ontology, Krankheitsbezüge und Azneimittelziele bietet neue, mächtige Werkzeuge für die funktionelle und systembiologische Analyse von Thrombozytensignalwegen. Die PlateletWeb Datenbank liefert eine neuartige systembiologische Werkbank zur Analyse von medizinisch relevanten Blutplättchensignalen (z.B. Plättchenaktivierung bei Thrombose, Hämostase etc.) im funktionellen Zusammenhang von Proteinnetzwerken. Durch umfassende Untersuchungen wurden über 15000 Phosphorylierungsstellen identifiziert, von denen 2500 einer Kinase zugeordnet werden konnten. Netzwerkmotive wurden auch in diesen Zellen ohne Zellkern untersucht und neue und interessante Signalmodule charakterisiert. Dies war nur durch die integrierte Information über Phosphorylierung und Protein-Protein-Wechselwirkungen möglich. Darüber hinaus wurden zahlreiche algorithmische Ansätze verwand, darunter ein exakter Ansatz zur Bayesschen Analyse von Interaktionsnetzwerken (Heinz) basierend auf linearer Integer-Programmierung. Gleichzeitig hat sich unser Konzept der semantischen Ähnlichkeiten zwischen zwei Genen basiert auf Gene Ontology (GO) Annotationen etabliert und ist eine wichtige Grundlage für viele analytische Ansätze in der Bioinformatik geworden. Unter der Annahme, dass eine höhere Anzahl von semantisch ähnlichen funktionellen Genannotationen biologisch relevantere Interaktionen reflektieren, wurde eine Bewertung der Kanten für funktionelle Netzwerkanalyse entwickelt. Die Kombination beider Ansäte, die Kantenbewertung, basierend auf der GO-Ähnlichkeit und die Netzknotenbewertung bezogen auf die Expression der Proteine ermöglichte in den analysierten Zelltypen (unter Nutzung von Daten z.B. aus Proteomstudien) die Identifizierung funktioneller Module als maximal bewertete Subnetzwerke in großen Proteinnetzwerken. Dieses Verfahren wurde an verschiedenen Proteomdatensätzen getestet (verschiedene Arten von Blutzellen, embryonale Stammzellen), um Proteinmodule zu identifizieren, die funktionell den jeweiligen Zelltyp charakterisieren. Weitere Ansätze der Methode erfassen die Analyse von quantitativen Phosphoproteom-Daten zur Identifizierung des Signalflusses in einem Kinase-Substrat Netzwerk. Diese skalierbaren Ansätze ermöglichen eine reibungslose Integration von Daten aus verschiedenen Quellen und liefern biologisch relevante Signalmodule.show moreshow less

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar Statistics
Metadaten
Author: Jaya Santosh Chakravarthy Nilla
URN:urn:nbn:de:bvb:20-opus-85730
Document Type:Doctoral Thesis
Granting Institution:Universität Würzburg, Fakultät für Biologie
Faculties:Fakultät für Biologie / Theodor-Boveri-Institut für Biowissenschaften
Date of final exam:2012/11/28
Language:English
Year of Completion:2012
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 570 Biowissenschaften; Biologie
GND Keyword:Systembiologie; Netzwerkanalyse; Thrombozyt
Tag:Blutplättchen; Integrierte Datenbank
Integrated Knowledgebase; Network Analysis; Platelets
Release Date:2014/11/28
Advisor:Prof. Dr. Thomas Dandekar
Licence (German):License LogoDeutsches Urheberrecht