TY - THES A1 - Breitenbach, Tim T1 - A mathematical optimal control based approach to pharmacological modulation with regulatory networks and external stimuli T1 - Ein auf mathematischer Optimalkontrolle basierender Ansatz für pharmakologische Modulation mit regulatorischen Netzwerken und externen Stimuli N2 - In this work models for molecular networks consisting of ordinary differential equations are extended by terms that include the interaction of the corresponding molecular network with the environment that the molecular network is embedded in. These terms model the effects of the external stimuli on the molecular network. The usability of this extension is demonstrated with a model of a circadian clock that is extended with certain terms and reproduces data from several experiments at the same time. Once the model including external stimuli is set up, a framework is developed in order to calculate external stimuli that have a predefined desired effect on the molecular network. For this purpose the task of finding appropriate external stimuli is formulated as a mathematical optimal control problem for which in order to solve it a lot of mathematical methods are available. Several methods are discussed and worked out in order to calculate a solution for the corresponding optimal control problem. The application of the framework to find pharmacological intervention points or effective drug combinations is pointed out and discussed. Furthermore the framework is related to existing network analysis tools and their combination for network analysis in order to find dedicated external stimuli is discussed. The total framework is verified with biological examples by comparing the calculated results with data from literature. For this purpose platelet aggregation is investigated based on a corresponding gene regulatory network and associated receptors are detected. Furthermore a transition from one to another type of T-helper cell is analyzed in a tumor setting where missing agents are calculated to induce the corresponding switch in vitro. Next a gene regulatory network of a myocardiocyte is investigated where it is shown how the presented framework can be used to compare different treatment strategies with respect to their beneficial effects and side effects quantitatively. Moreover a constitutively activated signaling pathway, which thus causes maleficent effects, is modeled and intervention points with corresponding treatment strategies are determined that steer the gene regulatory network from a pathological expression pattern to physiological one again. N2 - In dieser Arbeit werden Modelle für molekulare Netzwerke bestehend aus gewöhnlichen Differentialgleichungen durch Terme erweitert, die die Wechselwirkung zwischen dem entsprechenden molekularen Netzwerk und der Umgebung berücksichtigen, in die das molekulare Netzwerk eingebettet ist. Diese Terme modellieren die Effekte von externen Stimuli auf das molekulare Netzwerk. Die Nutzbarkeit dieser Erweiterung wird mit einem Modell der circadianen Uhr demonstriert, das mit gewissen Termen erweitert wird und Daten von mehreren verschiedenen Experimenten zugleich reproduziert. Sobald das Modell einschließlich der externen Stimuli aufgestellt ist, wird eine Grundstruktur entwickelt um externe Stimuli zu berechnen, die einen gewünschten vordefinierte Effekt auf das molekulare Netzwerk haben. Zu diesem Zweck wird die Aufgabe, geeignete externe Stimuli zu finden, als ein mathematisches optimales Steuerungsproblem formuliert, für welches, um es zu lösen, viele mathematische Methoden zur Verfügung stehen. Verschiedene Methoden werden diskutiert und ausgearbeitet um eine Lösung für das entsprechende optimale Steuerungsproblem zu berechnen. Auf die Anwendung dieser Grundstruktur pharmakologische Interventionspunkte oder effektive Wirkstoffkombinationen zu finden, wird hingewiesen und diese diskutiert. Weiterhin wird diese Grundstruktur in Bezug zu existierenden Netzwerkanalysewerkzeugen gesetzt und ihre Kombination für die Netzwerkanalyse diskutiert um zweckbestimmte externe Stimuli zu finden. Die gesamte Grundstruktur wird mit biologischen Beispielen verifiziert, indem man die berechneten Ergebnisse mit Daten aus der Literatur vergleicht. Zu diesem Zweck wird die Blutplättchenaggregation untersucht basierend auf einem entsprechenden genregulatorischen Netzwerk und damit assoziierte Rezeptoren werden detektiert. Weiterhin wird ein Wechsel von einem T-Helfer Zelltyp in einen anderen in einer Tumorumgebung analysiert, wobei fehlende Agenzien berechnet werden um den entsprechenden Wechsel in vitro zu induzieren. Als nächstes wird ein genregulatorisches Netzwerk eines Myokardiozyten untersucht, wobei gezeigt wird wie die präsentierte Grundstruktur genutzt werden kann um verschiedene Behandlungsstrategien in Bezug auf ihre nutzbringenden Wirkungen und Nebenwirkungen quantitativ zu vergleichen. Darüber hinaus wird ein konstitutiv aktivierter Signalweg, der deshalb unerwünschte Effekte verursacht, modelliert und Interventionspunkte mit entsprechenden Behandlungsstrategien werden bestimmt, die das genregulatorische Netzwerk wieder von einem pathologischen Expressionsmuster zu einem physiologischen steuern. KW - Bioinformatik KW - systematic drug targeting KW - optimal drug combination KW - disease modelling KW - external stimuli KW - intervention point analyzing KW - Molekülsystem KW - Reiz Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-174368 ER - TY - THES A1 - Yu, Sung-Huan T1 - Development and application of computational tools for RNA-Seq based transcriptome annotations T1 - Entwicklung und Anwendung bioinformatischer Werkzeuge für RNA-Seq-basierte Transkriptom-Annotationen N2 - In order to understand the regulation of gene expression in organisms, precise genome annotation is essential. In recent years, RNA-Seq has become a potent method for generating and improving genome annotations. However, this Approach is time consuming and often inconsistently performed when done manually. In particular, the discovery of non-coding RNAs benefits strongly from the application of RNA-Seq data but requires significant amounts of expert knowledge and is labor-intensive. As a part of my doctoral study, I developed a modular tool called ANNOgesic that can detect numerous transcribed genomic features, including non-coding RNAs, based on RNA-Seq data in a precise and automatic fashion with a focus on bacterial and achaeal species. The software performs numerous analyses and generates several visualizations. It can generate annotations of high-Resolution that are hard to produce using traditional annotation tools that are based only on genome sequences. ANNOgesic can detect numerous novel genomic Features like UTR-derived small non-coding RNAs for which no other tool has been developed before. ANNOgesic is available under an open source license (ISCL) at https://github.com/Sung-Huan/ANNOgesic. My doctoral work not only includes the development of ANNOgesic but also its application to annotate the transcriptome of Staphylococcus aureus HG003 - a strain which has been a insightful model in infection biology. Despite its potential as a model, a complete genome sequence and annotations have been lacking for HG003. In order to fill this gap, the annotations of this strain, including sRNAs and their functions, were generated using ANNOgesic by analyzing differential RNA-Seq data from 14 different samples (two media conditions with seven time points), as well as RNA-Seq data generated after transcript fragmentation. ANNOgesic was also applied to annotate several bacterial and archaeal genomes, and as part of this its high performance was demonstrated. In summary, ANNOgesic is a powerful computational tool for RNA-Seq based annotations and has been successfully applied to several species. N2 - Exakte Genomannotationen sind essentiell für das Verständnis Genexpressionsregulation in verschiedenen Organismen. In den letzten Jahren entwickelte sich RNA-Seq zu einer äußerst wirksamen Methode, um solche Genomannotationen zu erstellen und zu verbessern. Allerdings ist das Erstellen von Genomannotationen bei manueller Durchführung noch immer ein zeitaufwändiger und inkonsistenter Prozess. Die Verwendung von RNA-Seq-Daten begünstigt besonders die Identifizierung von nichtkodierenden RNAs, was allerdings arbeitsintensiv ist und fundiertes Expertenwissen erfordert. Ein Teil meiner Promotion bestand aus der Entwicklung eines modularen Tools namens ANNOgesic, das basierend auf RNA-Seq-Daten in der Lage ist, eine Vielzahl von Genombestandteilen, einschließlich nicht-kodierender RNAs, automatisch und präzise zu ermitteln. Das Hauptaugenmerk lag dabei auf der Anwendbarkeit für bakterielle und archaeale Genome. Die Software führt eine Vielzahl von Analysen durch und stellt die verschiedenen Ergebnisse grafisch dar. Sie generiert hochpräzise Annotationen, die nicht unter Verwendung herkömmlicher Annotations-Tools auf Basis von Genomsequenzen erzeugt werden könnten. Es kann eine Vielzahl neuer Genombestandteile, wie kleine nicht-kodierende RNAs in UTRs, ermitteln, welche von bisherigen Programme nicht vorhergesagt werden können. ANNOgesic ist unter einer Open-Source-Lizenz (ISCL) auf https://github.com/Sung-Huan/ANNOgesic verfügbar. Meine Forschungsarbeit beinhaltet nicht nur die Entwicklung von ANNOgesic, sondern auch dessen Anwendung um das Transkriptom des Staphylococcus aureus-Stamms HG003 zu annotieren. Dieser ist einem Derivat von S. aureus NCTC8325 - ein Stamm, Dear ein bedeutendes Modell in der Infektionsbiologie darstellt. Zum Beispiel wurde er für die Untersuchung von Antibiotikaresistenzen genutzt, da er anfällig für alle bekannten Antibiotika ist. Der Elternstamm NCTC8325 besitzt zwei Mutationen im regulatorischen Genen (rsbU und tcaR), die Veränderungen der Virulenz zur Folge haben und die in Stamm HG003 auf die Wildtypsequenz zurückmutiert wurden. Dadurch besitzt S. aureus HG003 das vollständige, ursprüngliche Regulationsnetzwerk und stellt deshalb ein besseres Modell zur Untersuchung von sowohl Virulenz als auch Antibiotikaresistenz dar. Trotz seines Modellcharakters fehlten für HG003 bisher eine vollständige Genomsequenz und deren Annotationen. Um diese Lücke zu schließen habe ich als Teil meiner Promotion mit Hilfe von ANNOgesic Annotationen für diesen Stamm, einschließlich sRNAs und ihrer Funktionen, generiert. Dafür habe ich Differential RNA-Seq-Daten von 14 verschiedenen Proben (zwei Mediumsbedingungen mit sieben Zeitpunkten) sowie RNA-Seq-Daten, die von fragmentierten Transkripten generiert wurden, analysiert. Neben S. aureus HG003 wurde ANNOgesic auf eine Vielzahl von Bakterien- und Archaeengenome angewendet und dabei wurde eine hohe Performanz demonstriert. Zusammenfassend kann gesagt werden, dass ANNOgesic ein mächtiges bioinformatisches Werkzeug für die RNA-Seq-basierte Annotationen ist und für verschiedene Spezies erfolgreich angewandt wurde. KW - RNA-Seq KW - Genome Annotation KW - small RNA KW - Genom KW - Annotation KW - Small RNA KW - Bioinformatik Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-176468 ER - TY - THES A1 - Prada Salcedo, Juan Pablo T1 - Image Processing and other bioinformatic tools for Neurobiology T1 - Bildbearbeitung und andere bioinformatische Werkzeuge für die Neurobiologie N2 - Neurobiology is widely supported by bioinformatics. Due to the big amount of data generated from the biological side a computational approach is required. This thesis presents four different cases of bioinformatic tools applied to the service of Neurobiology. The first two tools presented belong to the field of image processing. In the first case, we make use of an algorithm based on the wavelet transformation to assess calcium activity events in cultured neurons. We designed an open source tool to assist neurobiology researchers in the analysis of calcium imaging videos. Such analysis is usually done manually which is time consuming and highly subjective. Our tool speeds up the work and offers the possibility of an unbiased detection of the calcium events. Even more important is that our algorithm not only detects the neuron spiking activity but also local spontaneous activity which is normally discarded because it is considered irrelevant. We showed that this activity is determinant in the calcium dynamics in neurons and it is involved in important functions like signal modulation and memory and learning. The second project is a segmentation task. In our case we are interested in segmenting the neuron nuclei in electron microscopy images of c.elegans. Marking these structures is necessary in order to reconstruct the connectome of the organism. C.elegans is a great study case due to the simplicity of its nervous system (only 502 neurons). This worm, despite its simplicity has taught us a lot about neuronal mechanisms. There is still a lot of information we can extract from the c.elegans, therein lies the importance of reconstructing its connectome. There is a current version of the c.elegans connectome but it was done by hand and on a single subject which leaves a big room for errors. By automatizing the segmentation of the electron microscopy images we guarantee an unbiased approach and we will be able to verify the connectome on several subjects. For the third project we moved from image processing applications to biological modeling. Because of the high complexity of even small biological systems it is necessary to analyze them with the help of computational tools. The term in silico was coined to refer to such computational models of biological systems. We designed an in silico model of the TNF (Tumor necrosis factor) ligand and its two principal receptors. This biological system is of high relevance because it is involved in the inflammation process. Inflammation is of most importance as protection mechanism but it can also lead to complicated diseases (e.g. cancer). Chronic inflammation processes can be particularly dangerous in the brain. In order to better understand the dynamics that govern the TNF system we created a model using the BioNetGen language. This is a rule based language that allows one to simulate systems where multiple agents are governed by a single rule. Using our model we characterized the TNF system and hypothesized about the relation of the ligand with each of the two receptors. Our hypotheses can be later used to define drug targets in the system or possible treatments for chronic inflammation or lack of the inflammatory response. The final project deals with the protein folding problem. In our organism proteins are folded all the time, because only in their folded conformation are proteins capable of doing their job (with some very few exceptions). This folding process presents a great challenge for science because it has been shown to be an NP problem. NP means non deterministic Polynomial time problem. This basically means that this kind of problems cannot be efficiently solved. Nevertheless, somehow the body is capable of folding a protein in just milliseconds. This phenomenon puzzles not only biologists but also mathematicians. In mathematics NP problems have been studied for a long time and it is known that given the solution to one NP problem we could solve many of them (i.e. NP-complete problems). If we manage to understand how nature solves the protein folding problem then we might be able to apply this solution to many other problems. Our research intends to contribute to this discussion. Unfortunately, not to explain how nature solves the protein folding problem, but to explain that it does not solve the problem at all. This seems contradictory since I just mentioned that the body folds proteins all the time, but our hypothesis is that the organisms have learned to solve a simplified version of the NP problem. Nature does not solve the protein folding problem in its full complexity. It simply solves a small instance of the problem. An instance which is as simple as a convex optimization problem. We formulate the protein folding problem as an optimization problem to illustrate our claim and present some toy examples to illustrate the formulation. If our hypothesis is true, it means that protein folding is a simple problem. So we just need to understand and model the conditions of the vicinity inside the cell at the moment the folding process occurs. Once we understand this starting conformation and its influence in the folding process we will be able to design treatments for amyloid diseases such as Alzheimer's and Parkinson's. In summary this thesis project contributes to the neurobiology research field from four different fronts. Two are practical contributions with immediate benefits, such as the calcium imaging video analysis tool and the TNF in silico model. The neuron nuclei segmentation is a contribution for the near future. A step towards the full annotation of the c.elegans connectome and later for the reconstruction of the connectome of other species. And finally, the protein folding project is a first impulse to change the way we conceive the protein folding process in nature. We try to point future research in a novel direction, where the amino code is not the most relevant characteristic of the process but the conditions within the cell. N2 - Neurobiologie wird durch Bioinformatik unterstützt, aufgrund der großen Datenmengen, die von biologischer Seite her anfallen, bedarf es eines rechnerischen Ansatzes, um diese Daten sinnvoll zu interpretieren. Im Rahmen der vorliegenden Dissertation werden vier Werkzeuge aus dem Bereich der Bioinformatik für die Anwendung in der Neurobiologie vorgestellt. Die ersten beiden Werkzeuge gehören zum Bereich der digitalen Bildverarbeitung. Das erste Werkzeug nutzt einen Algorithmus basierend auf der Wavelet-Transformation, um Calciumaktivität in Neuronenkulturen zu bewerten. Hierzu wurde Open-Source-Software entwickelt, die Neurobiologen bei der Analyse von Videoaufnahmen unterstützt. Diese Analyse wird herkömmlicherweise manuell vorgenommen, sodass der Prozess zeitintensiv und sehr subjektiv ist. Die entwickelte Software beschleunigt den Arbeitsprozess und ermöglicht eine unverzerrte Detektion der Ereignisse in Bezug auf Calcium. Von noch größerer Bedeutsamkeit ist die Tatsache, dass der entwickelte Algorithmus nicht nur neuronale Spiking-Aktivität detektiert, sondern auch lokale Spontanaktivität, die herkömmlicherweise als irrelevant betrachtet und daher verworfen wird. Wir konnten zeigen, dass diese Spontanaktivität hohe Relevanz für die Dynamik von Calcium in den Neuronen besitzt und wahrscheinlich an wichtigen Funktionen beteiligt ist, wie der Signalmodulation, Lernen und Gedächtnis. Beim zweiten Projekt handelt es sich um eine Segmentierungsaufgabe. Wir sind daran interessiert, die neuronalen Zellkerne in elektromikroskopischen Aufnahmen des C.elegans zu segmentieren. Die Kennzeichnung dieser Struktur ist notwendig, um das Konnektom dieses Organismus zu rekonstruieren. Als Studienobjekt eignet sich C.elegans aufgrund der Simplizität seines Nervensystems (er besteht lediglich aus 502 Neuronen). Trotz der Simplizität des Nervensystems dieses Wurms konnten wichtige Erkenntnisse im Hinblick auf neuronale Mechanismen durch die Untersuchung dieses Modellorganismus gewonnen werden. Daher ist die Bestimmung des Konnektoms bedeutsam. Es existiert bereits eine Version des Konnektoms, doch diese wurde händig für lediglich ein Subjekt rekonstruiert und ist daher möglicherweise fehlerbehaftet. Die automatisierte Segmentierung der elektronenmikroskopischen Aufnahmen ermöglicht einen weniger verzerrten Ansatz, der zudem die Verifizierung an mehreren Subjekten gestattet. Das dritte Projekt dieser Dissertation ist ein Projekt zur Modellierung und Simulation eines biologischen Systems. Aufgrund der hohen Komplexität selbst kleinster biologischer Systeme ist die computergestützte Analyse notwendig. Der Begriff in silico wurde für die computergestützte Simulation biologischer Systeme geprägt. Wir haben ein in silico Modell des TNF (Tumornekrosefaktor) Ligand und seiner zwei Hauptrezeptoren entwickelt. Dieses biologische System ist von hoher Bedeutsamkeit, da es am Entzündungsprozess beteiligt ist, der höchste Wichtigkeit als Schutzmechanismus hat, aber es kann auch komplizierte Erkrankungen auslösen (beispielsweise Krebs), falls es zu einer chronischen Entzündungsreaktion kommt. Derartige Entzündungsprozesse können besonders gefährlich im Gehirn sein. Das System muss eine schwierige Balance zwischen protektiver Funktion und möglicher Krankheitsursache behalten. Um die Dynamiken besser zu verstehen, die das TNF System leiten, haben wir ein Modell mittels der BioNetGen Sprache erstellt. Diese regelbasierte Sprache ermöglicht es ein System zu simulieren, in dem multiple Agenten geleitet werden von einer Regel. Mithilfe unseres Modells charakterisieren wir das TNF System und stellen Hypothesen über die Beziehung des Liganden mit den beiden Rezeptoren auf. Diese Hypothesen können später genutzt werden, um mögliche Ziele im System für Arzneimittel, mögliche Behandlungen für chronische Entzündungen oder das Fehlen einer Entzündungsreaktion zu bestimmen. Im abschießenden Projekt wird das Proteinfaltungsproblem behandelt. In unserem Organismus werden ständig Proteine gefaltet, denn nur im gefalteten Zustand können sie ihrer Aufgabe nachkommen (mit sehr wenigen Ausnahmen). Dieser Faltungsprozess stellt eine große Herausforderung für die Wissenschaft dar, weil gezeigt wurde, dass der Faltungsprozess ein NP Problem ist. NP steht dabei für nichtdeterministisch polynomielles Zeitproblem. Dies bedeutet im Grunde, dass es nicht effizient gelöst werden kann. Nichtsdestotrotz ist der Körper in der Lage, ein Protein in Millisekunden zu falten. Dieses Phänomen stellt nicht nur Biologen sondern auch Mathematiker vor Rätsel. In der Mathematik wurde diese Probleme schon lange studiert und es ist bekannt, dass die Kenntnis der Lösung eines NP Problems die Lösung vieler bedeuten würde (insbesondere NP-kompletter Probleme). Daher ist die Idee, dass viele Probleme gelöst werden könnten, durch das Verständnis davon, wie die Natur das Problem löst. Unsere Forschung zielt darauf ab, zu dieser Diskussion beizutragen, allerdings nicht durch die Erklärung davon, wie die Natur das Problem löst, sondern durch die Erklärung, dass die Natur das Problem nicht löst. Dies scheint zunächst widersprüchlich, da der Körper ständig Proteine faltet. Unsere Hypothese besagt jedoch, dass der Organismus gelernt hat, eine vereinfachte Version des NP Problems zu lösen. Die Natur löst das Problem nicht in seiner vollen Komplexität, sondern nur eine kleine Instanz davon. Eine Instanz, die ein konvexes Optimierungsproblem darstellt. Wir formulieren das Proteinfaltungsproblem als konvexes Optimierungsproblem und zur Illustrierung unserer Behauptung nutzen wir theoretische Beispiele. Wenn die Hypothese zutrifft, bedeutet dies, dass das Proteinfaltungsproblem ein einfaches ist und wir müssen lediglich die Ausgangskonstellation der Umgebung in der Zelle verstehen und modellieren, in dem Moment in dem die Faltung passiert. Sobald wir die Ausgangskonstellation und den Einfluss auf den Faltungsprozess verstehen, können wir Behandlungen für Amyloid-Krankheiten, wie Alzheimer-Demenz und Morbus Parkinson entwickeln. Zusammenfassend trägt die vorliegende Dissertation zu neurobiologischer Forschung durch vier Ansätze bei. Zwei sind praktische Beiträge mit sofortigem Nutzen für die Forschung, dazu zählen das Videoanalyse Tool für Calcium Aufnahmen und das TNF in silico Modell. Die neuronale Zellkernsegmentierung ist ein Beitrag für die nahe Zukunft – ein Schritt zur Vervollständigung des Konnektoms des C.elegans und langfristig zur Rekonstruktion der Konnektome anderer Spezies. Und schließlich ist das Proteinfaltungsprojekt ein erster Impuls den Proteinfaltungsprozess anders zu denken. Wir versuchen zukünftige Forschung in eine andere Richtung zu lenken, wobei nicht der Aminosäurecode das relevanteste Charakteristikum des Prozesses ist, sondern vielmehr die Bedingungen innerhalb der Zelle. KW - Bildverarbeitung KW - Neurobiologie KW - Model simulation KW - Protein folding KW - Bioinformatik KW - Image Processing KW - Simulation Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-157721 ER - TY - THES A1 - Wolf, Beat T1 - Reducing the complexity of OMICS data analysis T1 - Verringerung der Komplexität von OMICS Datenanalysen N2 - The field of genetics faces a lot of challenges and opportunities in both research and diagnostics due to the rise of next generation sequencing (NGS), a technology that allows to sequence DNA increasingly fast and cheap. NGS is not only used to analyze DNA, but also RNA, which is a very similar molecule also present in the cell, in both cases producing large amounts of data. The big amount of data raises both infrastructure and usability problems, as powerful computing infrastructures are required and there are many manual steps in the data analysis which are complicated to execute. Both of those problems limit the use of NGS in the clinic and research, by producing a bottleneck both computationally and in terms of manpower, as for many analyses geneticists lack the required computing skills. Over the course of this thesis we investigated how computer science can help to improve this situation to reduce the complexity of this type of analysis. We looked at how to make the analysis more accessible to increase the number of people that can perform OMICS data analysis (OMICS groups various genomics data-sources). To approach this problem, we developed a graphical NGS data analysis pipeline aimed at a diagnostics environment while still being useful in research in close collaboration with the Human Genetics Department at the University of Würzburg. The pipeline has been used in various research papers on covering subjects, including works with direct author participation in genomics, transcriptomics as well as epigenomics. To further validate the graphical pipeline, a user survey was carried out which confirmed that it lowers the complexity of OMICS data analysis. We also studied how the data analysis can be improved in terms of computing infrastructure by improving the performance of certain analysis steps. We did this both in terms of speed improvements on a single computer (with notably variant calling being faster by up to 18 times), as well as with distributed computing to better use an existing infrastructure. The improvements were integrated into the previously described graphical pipeline, which itself also was focused on low resource usage. As a major contribution and to help with future development of parallel and distributed applications, for the usage in genetics or otherwise, we also looked at how to make it easier to develop such applications. Based on the parallel object programming model (POP), we created a Java language extension called POP-Java, which allows for easy and transparent distribution of objects. Through this development, we brought the POP model to the cloud, Hadoop clusters and present a new collaborative distributed computing model called FriendComputing. The advances made in the different domains of this thesis have been published in various works specified in this document. N2 - Das Gebiet der Genetik steht vor vielen Herausforderungen, sowohl in der Forschung als auch Diagnostik, aufgrund des "next generation sequencing" (NGS), eine Technologie die DNA immer schneller und billiger sequenziert. NGS wird nicht nur verwendet um DNA zu analysieren sondern auch RNA, ein der DNA sehr ähnliches Molekül, wobei in beiden Fällen große Datenmengen zu erzeugt werden. Durch die große Menge an Daten entstehen Infrastruktur und Benutzbarkeitsprobleme, da leistungsstarke Computerinfrastrukturen erforderlich sind, und es viele manuelle Schritte in der Datenanalyse gibt die kompliziert auszuführen sind. Diese beiden Probleme begrenzen die Verwendung von NGS in der Klinik und Forschung, da es einen Engpass sowohl im Bereich der Rechnerleistung als auch beim Personal gibt, da für viele Analysen Genetikern die erforderlichen Computerkenntnisse fehlen. In dieser Arbeit haben wir untersucht wie die Informatik helfen kann diese Situation zu verbessern indem die Komplexität dieser Art von Analyse reduziert wird. Wir haben angeschaut, wie die Analyse zugänglicher gemacht werden kann um die Anzahl Personen zu erhöhen, die OMICS (OMICS gruppiert verschiedene Genetische Datenquellen) Datenanalysen durchführen können. In enger Zusammenarbeit mit dem Institut für Humangenetik der Universität Würzburg wurde eine graphische NGS Datenanalysen Pipeline erstellt um diese Frage zu erläutern. Die graphische Pipeline wurde für den Diagnostikbereich entwickelt ohne aber die Forschung aus dem Auge zu lassen. Darum warum die Pipeline in verschiedenen Forschungsgebieten verwendet, darunter mit direkter Autorenteilname Publikationen in der Genomik, Transkriptomik und Epigenomik, Die Pipeline wurde auch durch eine Benutzerumfrage validiert, welche bestätigt, dass unsere graphische Pipeline die Komplexität der OMICS Datenanalyse reduziert. Wir haben auch untersucht wie die Leistung der Datenanalyse verbessert werden kann, damit die nötige Infrastruktur zugänglicher wird. Das wurde sowohl durch das optimieren der verfügbaren Methoden (wo z.B. die Variantenanalyse bis zu 18 mal schneller wurde) als auch mit verteiltem Rechnen angegangen, um eine bestehende Infrastruktur besser zu verwenden. Die Verbesserungen wurden in der zuvor beschriebenen graphischen Pipeline integriert, wobei generell die geringe Ressourcenverbrauch ein Fokus war. Um die künftige Entwicklung von parallelen und verteilten Anwendung zu unterstützen, ob in der Genetik oder anderswo, haben wir geschaut, wie man es einfacher machen könnte solche Applikationen zu entwickeln. Dies führte zu einem wichtigen informatischen Result, in dem wir, basierend auf dem Model von „parallel object programming“ (POP), eine Erweiterung der Java-Sprache namens POP-Java entwickelt haben, die eine einfache und transparente Verteilung von Objekten ermöglicht. Durch diese Entwicklung brachten wir das POP-Modell in die Cloud, Hadoop-Cluster und präsentieren ein neues Model für ein verteiltes kollaboratives rechnen, FriendComputing genannt. Die verschiedenen veröffentlichten Teile dieser Dissertation werden speziel aufgelistet und diskutiert. KW - Bioinformatik KW - Humangenetik KW - OMICS KW - Distributed computing KW - User interfaces KW - Verteiltes Datenbanksystem Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-153687 ER - TY - THES A1 - Karl, Stefan T1 - Control Centrality in Non-Linear Biological Networks T1 - Kontrollzentralität in nichtlinearen biologischen Netzwerken N2 - Biological systems such as cells or whole organisms are governed by complex regulatory networks of transcription factors, hormones and other regulators which determine the behavior of the system depending on internal and external stimuli. In mathematical models of these networks, genes are represented by interacting “nodes” whose “value” represents the activity of the gene. Control processes in these regulatory networks are challenging to elucidate and quantify. Previous control centrality metrics, which aim to mathematically capture the ability of individual nodes to control biological systems, have been found to suffer from problems regarding biological plausibility. This thesis presents a new approach to control centrality in biological networks. Three types of network control are distinguished: Total control centrality quantifies the impact of gene mutations and identifies potential pharmacological targets such as genes involved in oncogenesis (e.g. zinc finger protein GLI2 or bone morphogenetic proteins in chondrocytes). Dynamic control centrality describes relaying functions as observed in signaling cascades (e.g control in mouse colon stem cells). Value control centrality measures the direct influence of the value of the node on the network (e.g. Indian hedgehog as an essential regulator of proliferation in chondrocytes). Well-defined network manipulations define all three centralities not only for nodes, but also for the interactions between them, enabling detailed insights into network pathways. The calculation of the new metrics is made possible by substantial computational improvements in the simulation algorithms for several widely used mathematical modeling paradigms for genetic regulatory networks, which are implemented in the regulatory network simulation framework Jimena created for this thesis. Applying the new metrics to biological networks and artificial random networks shows how these mathematical concepts correspond to experimentally verified gene functions and signaling pathways in immunity and cell differentiation. In contrast to controversial previous results even from the Barabási group, all results indicate that the ability to control biological networks resides in only few driver nodes characterized by a high number of connections to the rest of the network. Autoregulatory loops strongly increase the controllability of the network, i.e. its ability to control itself, and biological networks are characterized by high controllability in conjunction with high robustness against mutations, a combination that can be achieved best in sparsely connected networks with densities (i.e. connections to nodes ratios) around 2.0 - 3.0. The new concepts are thus considerably narrowing the gap between network science and biology and can be used in various areas such as system modeling, plausibility trials and system analyses. Medical applications discussed in this thesis include the search for oncogenes and pharmacological targets, as well their functional characterization. N2 - Biologische Systeme wie Zellen aber auch ganze Organismen werden durch ein komplexes Netzwerk von Transkriptionsfaktoren, Hormonen und anderen Regulatoren kontrolliert, welche das Verhalten des Systems in Abhängigkeit von internen und externen Einflüssen steuern. In mathematischen Modellen dieser Netzwerke werden Gene durch „Knoten“ repräsentiert, deren „Wert“ die Aktivität des Gens wiederspiegelt. Kontrollvorgänge in diesen Regulationsnetzwerken sind schwierig zu quantifizieren. Existierende Maße für die Kontrollzentralität, d.h. die Fähigkeit einzelner Knoten biologische Systeme zu kontrollieren, zeigen vor allem Probleme mit der biologischen Plausibilität der Ergebnisse. Diese Dissertation stellt eine neue Definition der Kontrollzentralität vor. Dabei werden drei Typen der Kontrollzentralität unterschieden: Totale Kontrollzentralität quantifiziert den Einfluss von Mutationen eines Gens und hilft mögliche pharmakologische Ziele wie etwa Onkogene (z. B. das Zinkfingerprotein GLI2 oder Bone Morphogenetic Proteins in Chondrozyten) zu identifizieren. Dynamische Kontrollzentralität beschreibt signalweiterleitende Funktionen in Signalkaskaden (z. B. in Kontrollprozessen in Stammzellen des Mauskolons). Wert-Kontrollzentralität misst den Einfluss des Werts des Knotens (zum Beispiel die Rolle von Indian hedgehog als essentieller Regulator der Chondrozytenproliferation). Durch gezielte Manipulation von Netzwerken können die Zentralitäten nicht nur für Knoten, sondern auch für die Interaktionen zwischen ihnen bestimmt werden, was detaillierte Einblicke in Netzwerkpfade erlaubt. Möglich wird die Berechnung der neuen Maße durch substantielle Verbesserungen der Simulationsalgorithmen mehrerer häufig verwendeter mathematischer Muster für Genregulationsnetzwerke, welche in der für diese Dissertation entwickelten Software Jimena implementiert wurden. Durch die Anwendung der neuen Metriken auf biologische Netzwerke und künstliche Zufallsnetzwerke kann gezeigt werden, dass die mathematischen Konzepte experimentell bestätigte Funktionen von Genen und Signalpfaden im Immunsystem und der Zelldifferenzierung korrekt wiedergeben. Im Gegensatz zu umstrittenen Ergebnissen der Forschungsgruppe Barabási zeigt sich hier, dass die Fähigkeit, biologische Netzwerke zu kontrollieren, in nur wenigen Knoten konzentriert ist, welche sich vor allem durch viele Verbindungen zum Rest des Netzwerks auszeichnen. Knoten, welche ihre eigene Expression beeinflussen, steigern die Fähigkeit eines Netzwerkes sich selbst zu kontrollieren (Kontrollierbarkeit), und biologische Netzwerke zeichnen sich durch hohe Kontrollierbarkeit bei gleichzeitig hoher Resistenz gegenüber Mutationen aus. Diese Kombination kann am besten durch eher schwach verbundene Netzwerke erreicht werden, bei denen auf einen Knoten nur etwa 2 bis 3 Verbindungen kommen. Die neuen Konzepte schlagen so eine Brücke zwischen Netzwerkwissenschaften und Biologie, und sind in einer Vielzahl von Gebieten wie der Modellierung von Systemen sowie der Überprüfung ihrer Plausibilität und ihrer Analyse anwendbar. Medizinische Anwendungen, auf welche in dieser Dissertation eingegangen wird, sind zum Beispiel die Suche nach Onkogenen und pharmakologischen Zielen, aber auch deren funktionelle Analyse. KW - Bioinformatik KW - Genregulation KW - Nichtlineare Differentialgleichung KW - Genetic regulatory networks KW - Control centrality Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-150838 ER - TY - THES A1 - Pischimarov, Jordan Ivanov T1 - Bioinformatische Methoden zur Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen T1 - Bioinformatics approaches for the detection and classification of somatic mutations in hematological malignancies N2 - Die Sequenzierungstechnologien entwickeln sich stetig weiter, dies ermöglicht eine zuvor nicht erreichte Ausbeute an experimentellen Daten und auch an Neuentwicklungen von zuvor nicht realisierbaren Experimenten. Zugleich werden spezifische Datenbanken, Algorithmen und Softwareprogramme entwickelt, um die neu entstandenen Daten zu analysieren. Während der Untersuchung bioinformatischer Methoden für die Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen, zeigte sich eine hohe Vielfalt an alternativen Softwaretools die für die jeweiligen Analyseschritte genutzt werden können. Derzeit existiert noch kein Standard zur effizienten Analyse von Mutationen aus Next-Generation-Sequencing (NGS)-Daten. Die unterschiedlichen Methoden und Pipelines generieren Kandidaten, die zum größten Anteil in allen Ansätzen identifiziert werden können, jedoch werden Software spezifische Kandidaten nicht einheitlich detektiert. Um eine einheitliche und effiziente Analyse von NGS-Daten durchzuführen war im Rahmen dieser Arbeit die Entwicklung einer benutzerfreundlichen und einheitlichen Pipeline vorgesehen. Hierfür wurden zunächst die essentiellen Analysen wie die Identifizierung der Basen, die Alignierung und die Identifizierung der Mutationen untersucht. Des Weiteren wurden unter Berücksichtigung von Effizienz und Performance diverse verfügbare Softwaretools getestet, ausgewertet und sowohl mögliche Verbesserungen als auch Erleichterungen der bisherigen Analysen vorgestellt und diskutiert. Durch Mitwirken in Konsortien wie der klinischen Forschergruppe 216 (KFO 216) und International Cancer Genome Consortium (ICGC) oder auch bei Haus-internen Projekten wurden Datensätze zu den Entitäten Multiples Myelom (MM), Burkitt Lymphom (BL) und Follikuläres Lymphom (FL) erstellt und analysiert. Die Selektion geeigneter Softwaretools und die Generierung der Pipeline basieren auf komparativen Analysen dieser Daten, sowie auf geteilte Ergebnisse und Erfahrungen in der Literatur und auch in Foren. Durch die gezielte Entwicklung von Skripten konnten biologische und klinische Fragestellungen bearbeitet werden. Hierzu zählten eine einheitliche Annotation der Gennamen, sowie die Erstellung von Genmutations-Heatmaps mit nicht Variant-Calling-File (VCF)-Syntax konformen Dateien. Des Weiteren konnten nicht abgedeckte Regionen des Genoms in den NGS-Daten identifiziert und analysiert werden. Neue Projekte zur detaillierten Untersuchung der Verteilung von wiederkehrender Mutationen und Funktionsassays zu einzelnen Mutationskandidaten konnten basierend auf den Ergebnissen initiiert werden. Durch eigens erstellte Python-Skripte konnte somit die Funktionalität der Pipeline erweitert werden und zu wichtigen Erkenntnissen bei der biologischen Interpretation der Sequenzierungsdaten führen, wie beispielsweise zu der Detektion von drei neuen molekularen Subgruppen im MM. Die Erweiterungen, der in dieser Arbeit entwickelten Pipeline verbesserte somit die Effizienz der Analyse und die Vergleichbarkeit unserer Daten. Des Weiteren konnte durch die Erstellung eines eigenen Skripts die Analyse von unbeachteten Regionen in den NGS-Daten erfolgen. N2 - The sequencing technologies, while still being under further development, render it possible to develop novel experiments and allow the generation of larger amounts of utilizable data. At the same time novel software tools, databases and algorithms are developed to analyze these larger amounts of data. The analysis of somatic mutations in hematological malignancies showed that a high variety of alternative software tools can be used for different analysis steps. Furthermore there is currently no standardized procedure for the efficient identification and analysis of mutations in NGS data. The different pipeline and methods are, for the most part, able to identify the same mutation candidates, however there are software specific candidates which are not called by all pipelines. The scope of this dissertation was therefore to develop a user-friendly pipeline which is able to call candidate mutations uniformly and efficiently. For this purpose necessary analysis steps including base calling, alignment generation and variant calling were investigated. Furthermore available software tools were tested and evaluated regarding their efficiency and performance. Possible improvements of these software tools and previously performed analysis are explained and discussed in this work. NGS data sets of the different cancer entities multiple myeloma (MM), Burkitt lymphoma (BL) and follicular lymphoma (FL) were generated and analyzed within the framework of cooperate projects like the International Cancer Genome Consortium (ICGC) and the Clinical Research Group 216 (KFO) as well as for internal projects. The development of the pipeline and selection of suitable software tools is based on the comparative analysis of the generated data sets, as well as previously described results and experiences in literature and forums. The selective development of certain python scripts enabled the evaluation of novel biological and clinical questions by standardizing gene names in the annotation step, generating heat- maps of non-standardized VCF-files as well as the identification and analysis of uncovered regions in NGS data sets. This work and the obtained results thereby provide the groundwork for further projects e.g. the analysis of the distribution of recurrent mutations or the functional analysis of specific mutation candidates. This extensions of the developed pipeline with python scripts helped to improve the efficiency and comparability of the NGS data. The interpretation of the NGS data with the extended script for example led to the discovery of three distinct molecular subgroups in MM. Furthermore the generation of the novel python scripts helped to analyze uncovered regions in the NGS data sets.  KW - Pipeline-Rechner KW - somatische Mutationen KW - Sequenzierung KW - Bioinformatik KW - Identifizierungspipeline KW - Next Generation Sequencing KW - Variantcalling KW - Bioinformatic KW - somatic mutations KW - DNS-Sequenz KW - Somatische Mutation Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-147773 ER - TY - THES A1 - Schulze, Katja T1 - Automatisierte Klassifizierung und Viabilitätsanalyse von Phytoplankton T1 - Automated classification and viability analysis for phytoplankton N2 - Zentrales Ziel dieser Arbeit war es, Methoden der Mikroskopie, Bildverarbeitung und Bilderkennung für die Charakterisierungen verschiedener Phyotplankter zu nutzen, um deren Analyse zu verbessern und zu vereinfachen. Der erste Schwerpunkt der Arbeit lag auf der Analyse von Phytoplanktongemeinschaften, die im Rahmen der Überprüfung der Süßwasserqualität als Marker dienen. Die konventionelle Analyse ist dabei sehr aufwendig, da diese noch immer vollständig von Hand durchgeführt wird und hierfür speziell ausgebildetes Personal eingesetzt werden muss. Ziel war es, ein System zur automatischen Erkennung aufzubauen, um die Analyse vereinfachen zu können. Mit Hilfe von automatischer Mikroskopie war es möglich Plankter unterschiedlicher Ausdehnung durch die Integration mehrerer Schärfeebenen besser in einem Bild aufzunehmen. Weiterhin wurden verschiedene Fluoreszenzeigenschaften in die Analyse integriert. Mit einem für ImageJ erstellten Plugin können Organismen vom Hintergrund der Aufnahmen abgetrennt und eine Vielzahl von Merkmalen berechnet werden. Über das Training von neuralen Netzen wird die Unterscheidung von verschieden Gruppen von Planktontaxa möglich. Zudem können weitere Taxa einfach in die Analyse integriert und die Erkennung erweitert werden. Die erste Analyse von Mischproben, bestehend aus 10 verschiedenen Taxa, zeigte dabei eine durchschnittliche Erkennungsrate von 94.7% und eine durchschnittliche Falsch-Positiv Rate von 5.5%. Im Vergleich mit bestehenden Systemen konnte die Erkennungsrate verbessert und die Falsch Positiv Rate deutlich gesenkt werde. Bei einer Erweiterung des Datensatzes auf 22 Taxa wurde darauf geachtet, Arten zu verwenden, die verschiedene Stadien in ihrem Wachstum durchlaufen oder höhere Ähnlichkeiten zu den bereits vorhandenen Arten aufweisen, um evtl. Schwachstellen des Systemes erkennen zu können. Hier ergab sich eine gute Erkennungsrate (86.8%), bei der der Ausschluss von nicht-planktonischen Partikeln (11.9%) weiterhin verbessert war. Der Vergleich mit weiteren Klassifikationsverfahren zeigte, dass neuronale Netze anderen Verfahren bei dieser Problemstellung überlegen sind. Ähnlich gute Klassifikationsraten konnten durch Support Vektor Maschinen erzielt werden. Allerdings waren diese bei der Unterscheidung von unbekannten Partikeln dem neuralen Netz deutlich unterlegen. Der zweite Abschnitt stellt die Entwicklung einer einfachen Methode zur Viabilitätsanalyse von Cyanobakterien, bei der keine weitere Behandlung der Proben notwendig ist, dar. Dabei wird die rote Chlorophyll - Autofluoreszenz als Marker für lebende Zellen und eine grüne unspezifische Fluoreszenz als Marker für tote Zellen genutzt. Der Assay wurde mit dem Modellorganismus Synechocystis sp. PCC 6803 etabliert und validiert. Die Auswahl eines geeigeneten Filtersets ermöglicht es beide Signale gleichzeitig anzuregen und zu beobachten und somit direkt zwischen lebendenden und toten Zellen zu unterscheiden. Die Ergebnisse zur Etablierung des Assays konnten durch Ausplattieren, Chlorophyllbestimmung und Bestimmung des Absorbtionsspektrums bestätigt werden. Durch den Einsatz von automatisierter Mikroskopie und einem neu erstellten ImageJ Plugin wurde eine sehr genaue und schnelle Analyse der Proben möglich. Der Einsatz beim Monitoring einer mutagenisierten Kultur zur Erhöhung der Temperaturtoleranz ermöglichte genaue und zeitnahe Einblicke in den Zustand der Kultur. Weitere Ergebnisse weisen darauf hin, dass die Kombination mit Absorptionsspektren es ermöglichen können bessere Einblicke in die Vitalität der Kultur zu erhalten. N2 - Central goal of this work was to improve and simplify the characterization of different phytoplankter by the use of automated microscopy, image processing and image analysis. The first part of the work dealt with the analysis of pytoplankton communities, which are used as a marker for the determination of fresh water quality. The current routine analysis, is very time consuming and expensive, as it is carried out manually by trained personnel. Thus the goal of this work was to develop a system for automating the analysis. With the use of automated microscopy different focal planes could be integrated into one image, which made it possible to image plankter of different focus levels simultaneously. Additionally it allowed the integration of different fluorescence characteristics into the analysis. An image processing routine, developed in ImageJ, allows the segmentation of organisms from the image background and the calculation of a large range of features. Neural networks are then used for the classification of previously defined groups of plankton taxa. The program allows easy integration of additional taxa and expansion of the recognition targets. The analysis of samples containing 10 different taxa showed an average recognition rate of 94.7% and an average error rate of 5.5%. The obtained recognition rate was better than those of existing systems and the exclusion of non-plankton particles could be greatly improved. After extending the data set to 22 different classes of (more demanding) taxa a still good recognition (86.9 %) and still improved error rate (11.9 %) were obtained. This extended set was specifically selected in order to target potential weaknesses of the system. It contained mainly taxa that showed strong similarities to each other or taxa that go through various different morphological stages during their growth. The obtained recognition rates were comparable or better than those of existing systems and the exclusion of non-plankton particles could be greatly improved. A comparison of different classification methods showed, that neural networks are superior to all other investigated methods when used for this specific task. While similar recognition rates could be achieved with the use of support vector machines they were vastly inferior for the differentiation of unknown particles. The second part focused on the development of a simple live - dead assay for unicellular cyanobacteria without the need of sample preparation. The assay uses red chlorophyll fluorescence, corresponding to viable cells, and an unspecific green autofluorescence, that can only be observed in non viable cells. The assay was established and validated for the model organism Synechocystis sp. PCC 6803. With the selection of a suitable filter-set both signals could be excited and observed simultaneously, allowing a direct classification of viable and non-viable cells. The results were confirmed by plating/colony count, absorption spectra and chlorophyll measurements. The use of an automated fluorescence microscope and an ImageJ based image analysis plugin allows a very precise and fast analysis. The monitoring of a random mutagenized culture undergoing selection for improved temperature tolerance allowed an accurate and prompt insight into the condition of the culture. Further results indicate that a combination of the new assay with absorption spectra or chlorophyll concentration measurements allows the estimation of the vitality of cells. KW - Bilderkennnung KW - Bioinformatik KW - Phytoplankton KW - Bilderkennung KW - Phytoplankton KW - Viabilität KW - Mikroskopie KW - Bioinformatik Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-107174 ER - TY - THES A1 - Wolter, Steve T1 - Single-molecule localization algorithms in super-resolution microscopy T1 - Einzelmoleküllokalisierungsalgorithmen in der superauflösenden Mikroskopie N2 - Lokalisationsmikroskopie ist eine Methodenklasse der superauflösenden Fluoreszenzmikroskopie, deren Methoden sich durch stochastische zeitliche Isolation der Fluoreszenzemission auszeichnen. Das Blinkverhalten von Fluorophoren wird so verändert, dass gleichzeitige Aktivierung von einander nahen Fluorophoren unwahrscheinlich ist. Bekannte okalisationsmikroskopische Methoden umfassen dSTORM, STORM, PALM, FPALM, oder GSDIM. Lokalisationsmikroskopie ist von hohem biologischem Interesse, weil sie die Auflösung des Fluoreszenzmikroskops bei minimalem technischem Aufwand um eine Größenordnung verbessert. Der verbundene Rechenaufwand ist allerdings erheblich, da Millionen von Fluoreszenzemissionen einzeln mit Nanometergenauigkeit lokalisiert werden müssen. Der Rechen- und Implementationsaufwand dieser Auswertung hat die Verbreitung der superauflösenden Mikroskopie lange verzögert. Diese Arbeit beschreibt meine algorithmische Grundstruktur für die Auswertung lokalisationsmikroskopischer Daten. Die Echtzeitfähigkeit, d.h. eine Auswertegeschwindigkeit oberhalb der Datenaufnahmegeschwindigkeit an normalen Messaufbauten, meines neuartigen und quelloffenen Programms wird demonstriert. Die Geschwindigkeit wird auf verbrauchermarktgängigen Prozessoren erreicht und dadurch spezialisierte Rechenzentren oder der Einsatz von Grafikkarten vermieden. Die Berechnung wird mit dem allgemein anerkannten Gaussschen Punktantwortmodell und einem Rauschmodell auf Basis der größten Poissonschen Wahrscheinlichkeit durchgeführt. Die algorithmische Grundstruktur wird erweitert, um robuste und optimale Zweifarbenauswertung zu realisieren und damit korrelative Mikroskopie zwischen verschiedenen Proteinen und Strukturen zu ermöglichen. Durch den Einsatz von kubischen Basissplines wird die Auswertung von dreidimensionalen Proben vereinfacht und stabilisiert, um präzisem Abbilden von mikrometerdicken Proben näher zu kommen. Das Grenzverhalten von Lokalisationsalgorithmen bei hohen Emissionsdichten wird untersucht. Abschließend werden Algorithmen für die Anwendung der Lokalisationsmikroskopie auf verbreitete Probleme der Biologie aufgezeigt. Zelluläre Bewegung und Motilität werden anhand der in vitro Bewegung von Myosin-Aktin-Filamenten studiert. Lebendzellbildgebung mit hellen und stabilen organischen Fluorophoren wird mittels SNAP-tag-Fusionsproteinen realisiert. Die Analyse des Aufbaus von Proteinklumpen zeigt, wie Lokalisationsmikroskopie neue quantitative Ansätze jenseits reiner Bildgebung bietet. N2 - Localization microscopy is a class of super-resolution fluorescence microscopy techniques. Localization microscopy methods are characterized by stochastic temporal isolation of fluorophore emission, i.e., making the fluorophores blink so rapidly that no two are likely to be photoactive at the same time close to each other. Well-known localization microscopy methods include dSTORM}, STORM, PALM, FPALM, or GSDIM. The biological community has taken great interest in localization microscopy, since it can enhance the resolution of common fluorescence microscopy by an order of magnitude at little experimental cost. However, localization microscopy has considerable computational cost since millions of individual stochastic emissions must be located with nanometer precision. The computational cost of this evaluation, and the organizational cost of implementing the complex algorithms, has impeded adoption of super-resolution microscopy for a long time. In this work, I describe my algorithmic framework for evaluating localization microscopy data. I demonstrate how my novel open-source software achieves real-time data evaluation, i.e., can evaluate data faster than the common experimental setups can capture them. I show how this speed is attained on standard consumer-grade CPUs, removing the need for computing on expensive clusters or deploying graphics processing units. The evaluation is performed with the widely accepted Gaussian PSF model and a Poissonian maximum-likelihood noise model. I extend the computational model to show how robust, optimal two-color evaluation is realized, allowing correlative microscopy between multiple proteins or structures. By employing cubic B-splines, I show how the evaluation of three-dimensional samples can be made simple and robust, taking an important step towards precise imaging of micrometer-thick samples. I uncover the behavior and limits of localization algorithms in the face of increasing emission densities. Finally, I show up algorithms to extend localization microscopy to common biological problems. I investigate cellular movement and motility by considering the in vitro movement of myosin-actin filaments. I show how SNAP-tag fusion proteins enable imaging with bright and stable organic fluorophores in live cells. By analyzing the internal structure of protein clusters, I show how localization microscopy can provide new quantitative approaches beyond pure imaging. KW - super-resolution microscopy KW - fluorescence KW - scientific computing KW - dSTORM KW - localization microscopy KW - PALM KW - 3D microscopy KW - two-color microscopy KW - Fluoreszenzmikroskopie KW - Bildauflösung KW - Bioinformatik Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-109370 ER - TY - THES A1 - Zeeshan [geb. Majeed], Saman T1 - Implementation of Bioinformatics Methods for miRNA and Metabolic Modelling T1 - Die Umsetzung der Bioinformatik-Methoden für miRNA-und der Metabolischen Modellierung N2 - Dynamic interactions and their changes are at the forefront of current research in bioinformatics and systems biology. This thesis focusses on two particular dynamic aspects of cellular adaptation: miRNA and metabolites. miRNAs have an established role in hematopoiesis and megakaryocytopoiesis, and platelet miRNAs have potential as tools for understanding basic mechanisms of platelet function. The thesis highlights the possible role of miRNAs in regulating protein translation in platelet lifespan with relevance to platelet apoptosis and identifying involved pathways and potential key regulatory molecules. Furthermore, corresponding miRNA/target mRNAs in murine platelets are identified. Moreover, key miRNAs involved in aortic aneurysm are predicted by similar techniques. The clinical relevance of miRNAs as biomarkers, targets, resulting later translational therapeutics, and tissue specific restrictors of genes expression in cardiovascular diseases is also discussed. In a second part of thesis we highlight the importance of scientific software solution development in metabolic modelling and how it can be helpful in bioinformatics tool development along with software feature analysis such as performed on metabolic flux analysis applications. We proposed the “Butterfly” approach to implement efficiently scientific software programming. Using this approach, software applications were developed for quantitative Metabolic Flux Analysis and efficient Mass Isotopomer Distribution Analysis (MIDA) in metabolic modelling as well as for data management. “LS-MIDA” allows easy and efficient MIDA analysis and, with a more powerful algorithm and database, the software “Isotopo” allows efficient analysis of metabolic flows, for instance in pathogenic bacteria (Salmonella, Listeria). All three approaches have been published (see Appendices). N2 - Dynamische Wechselwirkungen und deren Veränderungen sind wichtige Themen der aktuellen Forschung in Bioinformatik und Systembiologie. Diese Promotionsarbeit konzentriert sich auf zwei besonders dynamische Aspekte der zellulären Anpassung: miRNA und Metabolite. miRNAs spielen eine wichtige Rolle in der Hämatopoese und Megakaryozytopoese, und die Thrombozyten miRNAs helfen uns, grundlegende Mechanismen der Thrombozytenfunktion besser zu verstehen. Die Arbeit analysiert die potentielle Rolle von miRNAs bei der Proteintranslation, der Thrombozytenlebensdauer sowie der Apoptose von Thrombozyten und ermöglichte die Identifizierung von beteiligten Signalwegen und möglicher regulatorischer Schlüsselmoleküle. Darüber hinaus wurden entsprechende miRNA / Ziel-mRNAs in murinen Thrombozyten systematisch gesammelt. Zudem wurden wichtige miRNAs, die am Aortenaneurysma beteiligt sein könnten, durch ähnliche Techniken vorhergesagt. Die klinische Relevanz von miRNAs als Biomarker, und resultierende potentielle Therapeutika, etwa über eine gewebsspezifische Beeinflussung der Genexpression bei Herz-Kreislauf Erkrankungen wird ebenfalls diskutiert. In einem zweiten Teil der Dissertation wird die Bedeutung der Entwicklung wissenschaftlicher Softwarelösungen für die Stoffwechselmodellierung aufgezeigt, mit einer Software-Feature-Analyse wurden verschiedene Softwarelösungen in der Bioinformatik verglichen. Wir vorgeschlagen dann den "Butterfly"-Ansatz, um effiziente wissenschaftliche Software-Programmierung zu implementieren. Mit diesem Ansatz wurden für die quantitative Stoffflussanalyse mit Isotopomeren effiziente Software-Anwendungen und ihre Datenverwaltung entwickelt: LS-MIDA ermöglicht eine einfache und effiziente Analyse, die Software "Isotopo" ermöglicht mit einem leistungsfähigeren Algorithmus und einer Datenbank, eine noch effizientere Analyse von Stoffwechselflüssen, zum Beispiel in pathogenen Bakterien (Salmonellen, Listerien). Alle drei Ansätze wurden bereits veröffentlicht (siehe Appendix). KW - miRNS KW - Bioinformatics KW - miRNA KW - Metabolic Modelling KW - Spectral Data Analysis KW - Butterfly KW - Thrombozyt KW - Bioinformatik KW - Stoffwechsel KW - Modellierung KW - Metabolischen Modellierung Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-102900 ER - TY - JOUR A1 - Schulze, Katja A1 - Tillich, Ulrich M. A1 - Dandekar, Thomas A1 - Frohme, Marcus T1 - PlanktoVision – an automated analysis system for the identification of phytoplankton JF - BMC Bioinformatics N2 - Background Phytoplankton communities are often used as a marker for the determination of fresh water quality. The routine analysis, however, is very time consuming and expensive as it is carried out manually by trained personnel. The goal of this work is to develop a system for an automated analysis. Results A novel open source system for the automated recognition of phytoplankton by the use of microscopy and image analysis was developed. It integrates the segmentation of the organisms from the background, the calculation of a large range of features, and a neural network for the classification of imaged organisms into different groups of plankton taxa. The analysis of samples containing 10 different taxa showed an average recognition rate of 94.7% and an average error rate of 5.5%. The presented system has a flexible framework which easily allows expanding it to include additional taxa in the future. Conclusions The implemented automated microscopy and the new open source image analysis system - PlanktoVision - showed classification results that were comparable or better than existing systems and the exclusion of non-plankton particles could be greatly improved. The software package is published as free software and is available to anyone to help make the analysis of water quality more reproducible and cost effective. KW - Bioinformatik Y1 - 2013 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-96395 UR - http://www.biomedcentral.com/1471-2105/14/115 ER - TY - JOUR A1 - Dandekar, Thomas A1 - Liang, Chunguang A1 - Krüger, Beate T1 - GoSynthetic database tool to analyse natural and engineered molecular processes JF - Database N2 - An essential topic for synthetic biologists is to understand the structure and function of biological processes and involved proteins and plan experiments accordingly. Remarkable progress has been made in recent years towards this goal. However, efforts to collect and present all information on processes and functions are still cumbersome. The database tool GoSynthetic provides a new, simple and fast way to analyse biological processes applying a hierarchical database. Four different search modes are implemented. Furthermore, protein interaction data, cross-links to organism-specific databases (17 organisms including six model organisms and their interactions), COG/KOG, GO and IntAct are warehoused. The built in connection to technical and engineering terms enables a simple switching between biological concepts and concepts from engineering, electronics and synthetic biology. The current version of GoSynthetic covers more than one million processes, proteins, COGs and GOs. It is illustrated by various application examples probing process differences and designing modifications. KW - Bioinformatik Y1 - 2013 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-97023 ER - TY - THES A1 - Krüger, Beate T1 - Integration und Kombination bioinformatischer Methoden in Biotechnologie, synthetischer Biologie und Pharmaindustrie T1 - Intgration and combination of bioinformatical methods in biotechnology, synthetic biology and pharmaceutical industry N2 - Die Bioinformatik ist eine interdisziplinäre Wissenschaft, welche Probleme aus allen Lebenswissenschaften mit Hilfe computergestützter Methoden bearbeitet. Ihr Ziel ist es, die Verarbeitung und Interpretation großer Datenmengen zu ermöglichen. Zudem unterstützt sie den Designprozess von Experimenten in der Synthetischen Biologie. Die synthetische Biologie beschäftigt sich mit der Generierung neuer Komponenten und deren Eigenschaften, welche durch die Behandlung und Manipulation lebender Organismen oder Teilen daraus entstehen. Ein besonders interessantes Themengebiet hierbei sind Zweikomponenten-Systeme (Two-Component System, TCS). TCS sind wichtige Signalkaskaden in Bakterien, welche in der Lage sind Informationen aus der Umgebung in eine Zelle zu übertragen und darauf zu reagieren. Die vorliegende Dissertation beschäftigt sich mit der Beurteilung, Nutzung und Weiterentwicklung von bioinformatischen Methoden zur Untersuchung von Proteininteraktionen und biologischen Systemen. Der wissenschaftliche Beitrag der vorliegenden Arbeit kann in drei Aspekte unterteilt werden: - Untersuchung und Beurteilung von bioinformatischen Methoden und Weiterführung der Ergebnisse aus der vorhergehenden Diplomarbeit zum Thema Protein-Protein-Interaktionsvorhersagen. - Analyse genereller evolutionärer Modifikationsmöglichkeiten von TCS sowie deren Design und spezifische Unterschiede. - Abstraktion bzw. Transfer der gewonnenen Erkenntnisse auf technische und biologische Zusammenhänge. Mit dem Ziel das Design neuer Experimente in der synthetischen Biologie zu vereinfachen und die Vergleichbarkeit von technischen und biologischen Prozessen sowie zwischen Organismen zu ermöglichen. Das Ergebnis der durchgeführten Studie zeigte, dass Zweikomponenten-Systeme in ihrem Aufbau sehr konserviert sind. Nichtsdestotrotz konnten viele spezifische Eigenschaften und drei generelle Modifikationsmöglichkeiten entdeckt werden. Die Untersuchungen ermöglichten die Identifikation neuer Promotorstellen, erlaubten aber auch die Beschreibung der Beschaffenheit unterschiedlicher Signalbindestellen. Zudem konnten bisher fehlende Komponenten aus TCS entdeckt werden, ebenso wie neue divergierte TCS-Domänen im Organismus Mycoplasma. Eine Kombination aus technischen Ansätzen und synthetischer Biologie vereinfachte die gezielte Manipulation von TCS oder anderen modularen Systemen. Die Etablierung der vorgestellten zweistufigen Modul-Klassifikation ermöglichte eine effizientere Analyse modular aufgebauter Prozesse und erlaubte somit das molekulare Design synthetischer, biologischer Anwendungen. Zur einfachen Nutzung dieses Ansatzes wurde eine frei zugängliche Software GoSynthetic entwickelt. Konkrete Beispiele demonstrierten die praktische Anwendbarkeit dieser Analysesoftware. Die vorgestellte Klassifikation der synthetisch-biologischen und technischen Einheiten soll die Planung zukünftiger Designexperimente vereinfachen und neue Wege für sinnverwandte Bereiche aufzeigen. Es ist nicht die Hauptaufgabe der Bioinformatik, Experimente zu ersetzen, sondern resultierende große Datenmengen sinnvoll und effizient auszuwerten. Daraus sollen neue Ideen für weitere Analysen und alternative Anwendungen gewonnen werden, um fehlerhafte oder falsche Ansätze frühzeitig zu erkennen. Die Bioinformatik bietet moderne, technische Verfahren, um vertraute, aber oft mühsame experimentelle Wege durch neue, vielversprechende Ansätze zur Datenstrukturierung und Auswertung großer Datenmengen zu ergänzen. Neue Sichtweisen werden durch die Erleichterung des Testprozederes gefördert. Die resultierende Zeitersparnis führt zudem zu einer Kostenreduktion. N2 - The field of Bioinformatics is an interdisciplinary science focusing on the application of computer science to solve problems in different areas of life sciences. Its scope is to handle and interpret an immense quantity of data and to support computer-aided design approaches of synthetic biological experiments. Synthetic biology deals with the generation of new components and biological characteristics created by manipulation of living organisms or parts of them. Of particular interest are two-component systems (TCS). TCS describe simple and important signalling cascades in bacteria which transfer information from the environment into the cell as a reaction to changes in the environment. The present thesis is focused on the assessment, applicability and enhancement of bioinformatical methods in order to facilitate analysis of protein interactions and biological systems. The scientific efforts within the thesis can be divided into three aspects: - Analysis and assessment of bioinformatical methods and enhancement of results from the preceding diploma thesis dealing with protein-protein interaction predictions. - Analysis of general evolutionary modification possibilities within TCS as well as specific differences and design for the identification of a common approach. - Abstraction and transfer of the results to technical and biological contexts in order to simplify synthetic biological design experiments. Establishment of comparable vocabulary for both, technical and biological processes as well as different organisms. The outcome of this thesis revealed that TCS structure is very conserved but that it nevertheless contained some very specific characteristics. New promotor sites were discovered whilst additionally allowing the analysis of the signal binding sites. Missing elements from known TCS could be discovered and a completely new diverged TCS domain in the organism Mycoplasma could be identified as well as three general modification possibilities for TCS. The combination between technological approaches and synthetic biology simplifies the systematic manipulation of TCS or other modular systems. The established two-staged module classification simplifies the analysis of modular processes and thereby the molecular design of synthetical-biological questions. Concrete examples showed the functionality and usefulness of the classification. A freely accessible software GoSynthetic provided easy access and application of the developed toolbox. Not only new concrete scientific findings were provided by the given thesis but also a general approach to identify and analyse TCS and even to create similar analytic procedures. The established classification of biological and technical modules will ease the design of future experiments and reveals new pportunities applicable to similar scientific areas. It is not the task of Bioinformatics to replace experiments but to analyse the resulting huge amounts of data meaningfully and efficiently. Hence, new ideas for further analysis and alternative cases need to be generated which may finally help to identify erroneous approaches earlier. Bioinformatics offers modern technical methods to amend familiar and sometimes exhausting experimental procedures with promising new approaches for data structuring and analysis of immense quantities of data. New perceptions are encouraged and speedier progress is possible without increasing the experimental coasts. KW - Biotechnologie KW - Synthetische Biologie KW - Bioinformatik KW - Vaccinia-Virus KW - Zweikomponentensystem KW - Zweikomponenten-System KW - Pharmazeutische Industrie KW - biotechnology KW - synthetic biology KW - bioinformatic KW - two-component system KW - vaccinia virus KW - gene ontology Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-70702 ER - TY - THES A1 - Cecil, Alexander [geb. Schmid] T1 - Metabolische Netzwerkanalysen für den Weg von xenobiotischen zu verträglichen antibiotischen Substanzen T1 - Metabolic network analysis for the path from xenobiotic to compliant antibiotic substances N2 - Durch das Auftreten neuer Stämme resistenter Krankheitserreger ist die Suche nach neuartigen Wirkstoffen gegen diese, sich ständig weiter ausbreitende Bedrohung, dringend notwendig. Der interdisziplinäre Sonderforschungsbereich 630 der Universität Würzburg stellt sich dieser Aufgabe, indem hier neuartige Xenobiotika synthetisiert und auf ihre Wirksamkeit getestet werden. Die hier vorgelegte Dissertation fügt sich hierbei nahtlos in die verschiedenen Fachbereiche des SFB630 ein: Sie stellt eine Schnittstelle zwischen Synthese und Analyse der Effekte der im Rahmen des SFB630 synthetisierten Isochinolinalkaloid-Derivaten. Mit den hier angewandten bioinformatischen Methoden wurden zunächst die wichtigsten Stoffwechselwege von S. epidermidis R62A, S. aureus USA300 und menschlicher Zellen in sogenannten metabolischen Netzwerkmodellen nachgestellt. Basierend auf diesen Modellen konnten Enzymaktivitäten für verschiedene Szenarien an zugesetzten Xenobiotika berechnet werden. Die hierfür benötigten Daten wurden direkt aus Genexpressionsanalysen gewonnen. Die Validierung dieser Methode erfolgte durch Metabolommessungen. Hierfür wurde S. aureus USA300 mit verschiedenen Konzentrationen von IQ-143 behandelt und gemäß dem in dieser Dissertation vorgelegten Ernteprotokoll aufgearbeitet. Die Ergebnisse hieraus lassen darauf schließen, dass IQ-143 starke Effekte auf den Komplex 1 der Atmungskette ausübt – diese Resultate decken sich mit denen der metabolischen Netzwerkanalyse. Für den Wirkstoff IQ-238 ergaben sich trotz der strukturellen Ähnlichkeiten zu IQ-143 deutlich verschiedene Wirkeffekte: Dieser Stoff verursacht einen direkten Abfall der Enzymaktivitäten in der Glykolyse. Dadurch konnte eine unspezifische Toxizität dieser Stoffe basierend auf ihrer chemischen Struktur ausgeschlossen werden. Weiterhin konnten die bereits für IQ-143 und IQ-238 auf Bakterien angewandten Methoden erfolgreich zur Modellierung der Effekte von Methylenblau auf verschiedene resistente Stämme von P. falciparum 3D7 angewandt werden. Dadurch konnte gezeigt werden, dass Methylenblau in einer Kombination mit anderen Präparaten gegen diesen Parasiten zum einen die Wirkung des Primärpräparates verstärkt, zum anderen aber auch in gewissem Maße vorhandene Resistenzen gegen das Primärpräparat zu verringern vermag. Somit konnte durch die vorgelegte Arbeit eine Pipeline zur Identifizierung der metabolischen Effekte verschiedener Wirkstoffe auf unterschiedliche Krankheitserreger erstellt werden. Diese Pipeline kann jederzeit auf andere Organismen ausgeweitet werden und stellt somit einen wichtigen Ansatz um Netzwerkeffekte verschiedener, potentieller Medikamente aufzuklären. N2 - With the emergence of new strains of resistant pathogens, the search for new compounds against this spreading threat is of utmost importance. The interdisciplinary special research field SFB630 of the University of Würzburg is ready to tackle this task by synthesizing and analysing the effects of xenobiotics. The presented dissertation is seamlessly integrated into the diverse range of special fields of the SFB630: it provides a gateway between synthesis and analysis of the effects of the newly synthesized isoquinoline alkaloid derivatives. The presented bioinformatic methods were used to build a so called metabolic network model of the most important pathways of S. epidermidis RP62A, S. aureus USA300 and human cells. Based on these models it was possible to calculate the enzyme activities for different scenarios of added xenobiotics. The data needed for these calculations were derived directly from gene expression analysis. Validation of this method was done by metabolomic measurements. In order to accomplish this, a strain of S. aureus USA300 was subjected to different concentrations of IQ-143 and processed according to the workflow also published in this dissertation. The results suggest that IQ-143 has very strong effects on the complex 1 of the oxidative phosphorylation – these results are consistent with the results obtained by the metabolic network analysis. Although IQ-238 is structurally a close relative to IQ-143, the effects of this compound are very different: it leads to a drop of the enzyme activities in the glycolysis. Therefore an unspecific toxicity of those compounds based on their chemical structure dould be ruled out. The methods used to model the effects of IQ-143 and IQ-238 on bacteria were furthermore successfully transferred to model the effects of methylene blue on several resistant strains of P. falciparum 3D7. It was shown that a combination of methylene blue and other malaria medications either enhances the effects of the primary medication, or – in the case of a resistant strain – methylene blue was able to mitigate the resistances against the primary medication. The presented dissertation was thus successfully able to build a pipeline to identify the metabolic effects of different compounds on various germs. This pipeline can be expanded to other organisms at any time and therefore yields an important approach to identify network effects of various potential drugs. KW - Stoffwechsel KW - Bioinformatik KW - Mathematisches Modell KW - Enzymaktivität KW - Xenobiotikum KW - Netzwerkanalyse KW - Bioinformatik KW - Metabolische Stoffwechselmodellierung KW - Metabolomik KW - Metabonomik KW - Network analysis KW - Bioinformatics KW - metabolic pathway modeling KW - metabolomics KW - metabonomics Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-71866 ER - TY - THES A1 - Philippi, Nicole T1 - Modellierung von Signalwegen in verschiedenen biologischen Systemen T1 - Modeling of signaling pathways in different biological systems N2 - Die Apoptose der Leberzellen ist abhängig von externen Signalen wie beispielsweise Komponenten der Extrazellulären Matrix sowie anderen Zell-Zell-Kontakten, welche von einer Vielfalt und Vielzahl an Knoten verarbeitet werden. Einige von ihnen wurden im Rahmen dieser Arbeit auf ihre Systemeffekte hin unter- sucht. Trotz verschiedener äußerer Einflüsse und natürlicher Selektion ist das System daraufhin optimiert, eine kleine Anzahl verschiedener und klar voneinander unterscheidbarer Systemzustände anzunehmen. Die verschiedenartigen Einflüsse und Crosstalk-Mechanismen dienen der Optimierung der vorhandenen Systemzustände. Das in dieser Arbeit vorgestellte Modell zeigt zwei apoptotische sowie zwei nicht-apoptotische stabile Systemzustände, wobei der Grad der Aktivierung eines Knotens bis zu dem Moment stark variieren kann, in welchem der absolute Systemzustand selbst verändert wird (Philippi et al., BMC Systems Biology,2009) [1]. Dieses Modell stellt zwar eine Vereinfachung des gesamten zellulären Netzwerkes und seiner verschiedenen Zustände dar, ist aber trotz allem in der Lage, unabhängig von detaillierten kinetischen Daten und Parametern der einzelnen Knoten zu agieren. Gleichwohl erlaubt das Modell mit guter qualitativer Übereinstimmung die Apoptose als Folge einer Stimulation mit FasL zu modellieren. Weiterhin umfasst das Modell sowohl Crosstalk-Möglichkeiten des Collagen-Integrin-Signalwegs, ebenso berücksichtigt es die Auswirkungen der genetischen Deletion von Bid sowie die Konsequenzen einer viralen Infektion. In einem zweiten Teil werden andere Anwendungsmöglichkeiten dargestellt. Hormonale Signale in Pflanzen, Virusinfektionen und intrazelluläre Kommunikation werden semi-quantitativ modelliert. Auch hier zeigte sich eine gute Ubereinstimmung der Modelle mit den experimentellen Daten. N2 - Apoptosis of liver cells is dependent on external signals such as components of the extracellular matrix and cell-cell-contacts, which are processed by a variety of numerous nodes of which several are examined here for their system effects. Despite different input interferences and presumably also due to natural selecti- on, the system nevertheless appears to be optimized to adopt a small number of clear and distinguishable states, and the various inputs and crosstalk mechanisms only optimize the best choice between them. For the model described within this work, two nonapoptotic and two apoptotic states are found, although the degree of activation at a node can differ widely until the absolute system state is altered (Philippi et al., BMC Systems Biology, 2009) [1]. The model is still a simplification of the complete cellular network and its different states, and operates independently of detailed kinetic data and parameters for individual nodes. Nevertheless, it allows modeling the readout of apoptosis after FasL stimulation with qualitative agreement and includes crosstalks from collagen/integrin signa- ling, the effect of genetic deletion of Bid and the consequences of viral infection. The second part of this work deals with other applications using this method. Semi-quantitative models are used for hormonal signaling in plants, viral infec- tions and intra-cellular communication. The simulated results fit to the experi- mental data provided. KW - Systembiologie KW - Modellierung KW - Bioinformatik KW - Apoptose KW - Systems Biology KW - Modeling KW - Bioinformatics KW - Apoptosis Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-57690 ER - TY - THES A1 - Beisser, Daniela T1 - Integrated functional analysis of biological networks T1 - Integrierte funktionelle Analyse biologischer Netzwerke N2 - In recent years high-throughput experiments provided a vast amount of data from all areas of molecular biology, including genomics, transcriptomics, proteomics and metabolomics. Its analysis using bioinformatics methods has developed accordingly, towards a systematic approach to understand how genes and their resulting proteins give rise to biological form and function. They interact with each other and with other molecules in highly complex structures, which are explored in network biology. The in-depth knowledge of genes and proteins obtained from high-throughput experiments can be complemented by the architecture of molecular networks to gain a deeper understanding of biological processes. This thesis provides methods and statistical analyses for the integration of molecular data into biological networks and the identification of functional modules, as well as its application to distinct biological data. The integrated network approach is implemented as a software package, termed BioNet, for the statistical language R. The package includes the statistics for the integration of transcriptomic and functional data with biological networks, the scoring of nodes and edges of these networks as well as methods for subnetwork search and visualisation. The exact algorithm is extensively tested in a simulation study and outperforms existing heuristic methods for the calculation of this NP-hard problem in accuracy and robustness. The variability of the resulting solutions is assessed on perturbed data, mimicking random or biased factors that obscure the biological signal, generated for the integrated data and the network. An optimal, robust module can be calculated using a consensus approach, based on a resampling method. It summarizes optimally an ensemble of solutions in a robust consensus module with the estimated variability indicated by confidence values for the nodes and edges. The approach is subsequently applied to two gene expression data sets. The first application analyses gene expression data for acute lymphoblastic leukaemia (ALL) and differences between the subgroups with and without an oncogenic BCR/ABL gene fusion. In a second application gene expression and survival data from diffuse large B-cell lymphomas are examined. The identified modules include and extend already existing gene lists and signatures by further significant genes and their interactions. The most important novelty is that these genes are determined and visualised in the context of their interactions as a functional module and not as a list of independent and unrelated transcripts. In a third application the integrative network approach is used to trace changes in tardigrade metabolism to identify pathways responsible for their extreme resistance to environmental changes and endurance in an inactive tun state. For the first time a metabolic network approach is proposed to detect shifts in metabolic pathways, integrating transcriptome and metabolite data. Concluding, the presented integrated network approach is an adequate technique to unite high-throughput experimental data for single molecules and their intermolecular dependencies. It is flexible to apply on diverse data, ranging from gene expression changes over metabolite abundances to protein modifications in a combination with a suitable molecular network. The exact algorithm is accurate and robust in comparison to heuristic approaches and delivers an optimal, robust solution in form of a consensus module with confidence values. By the integration of diverse sources of information and a simultaneous inspection of a molecular event from different points of view, new and exhaustive insights into biological processes can be acquired. N2 - In den letzten Jahren haben Hochdurchsatz-Experimente gewaltige Mengen an molekularbiologischen Daten geliefert, angefangen mit dem ersten sequenzierten Genom von Haemophilus influenzae im Jahr 1995 und dem menschlichen Genom im Jahr 2001. Mittlerweile umfassen die resultierenden Daten neben der Genomik die Bereiche der Transkriptomik, Proteomik und Metabolomik. Die Analyse der Daten mithilfe von bioinformatischen Methoden hat sich entsprechend mit verändert und weiterentwickelt. Durch neuartige, systembiologische Ansätze versucht man zu verstehen, wie Gene und die aus ihnen resultierenden Proteine, biologische Formen und Funktionen entstehen lassen. Dabei interagieren sie miteinander und mit anderen Molekülen in hoch komplexen Strukturen, welche durch neue Ansätze der Netzwerkbiologie untersucht werden. Das tiefgreifende Wissen über einzelne Moleküle, verfügbar durch Hochdurchsatz-Technologien, kann komplementiert werden durch die Architektur und dynamischen Interaktionen molekularer Netzwerke und somit ein umfassenderes Verständnis biologischer Prozesse ermöglichen. Die vorliegende Dissertation stellt Methoden und statistische Analysen zur Integration molekularer Daten in biologische Netzwerke, Identifikation robuster, funktionaler Subnetzwerke sowie die Anwendung auf verschiedenste biologische Daten vor. Der integrative Netzwerkansatz wurde als ein Softwarepaket, BioNet, in der statistischen Programmiersprache R implementiert. Das Paket beinhaltet statistische Verfahren zur Integration transkriptomischer und funktionaler Daten, die Gewichtung von Knoten und Kanten in biologischen Netzwerken sowie Methoden zur Suche signifikanter Bereiche, Module, und deren Visualisierung. Der exakte Algorithmus wird ausführlich in einer Simulationsstudie getestet und übertrifft heuristische Methoden zur Lösung dieses NP-vollständigen Problems in Genauigkeit und Robustheit. Die Variabilität der resultierenden Lösungen wird bestimmt anhand von gestörten integrierten Daten und gestörten Netzwerken, welche zufällige und verzerrende Einflüsse darstellen, die die Daten verrauschen. Ein optimales, robustes Modul kann durch einen Konsensusansatz bestimmt werden. Basierend auf einer wiederholten Stichprobennahme der integrierten Daten, wird ein Ensemble von Lösungen erstellt, aus welchem sich das robuste und optimale Konsensusmodul berechnen lässt. Zusätzlich erlaubt dieser Ansatz eine Schätzung der Variabilität des Konsensusmoduls und die Berechnung von Konfidenzwerte für Knoten und Kanten. Der Ansatz wird anschließend auf zwei Genexpressionsdatensätze angewandt. Die erste Anwendung untersucht Genexpressionsdaten für akute lymphoblastische Leukämie (ALL) und analysiert Unterschiede in Subgruppen mit und ohne BRC/ABL Genfusion. Die zweite Anwendung wertet Genexpressions- und Lebenszeitdaten für diffuse großzellige B-Zell Lymphome (DLBCL) aus, beruhend auf molekularen Unterschieden zwischen zwei DLBCL Subtypen mit unterschiedlicher Malignität. In einer dritten Anwendung wird der integrierte Netzwerkansatz benutzt, um Veränderungen im Metabolismus von Tardigraden aufzuspüren und Signalwege zu identifizieren, welche für die extreme Anpassungsfähigkeit an wechselnde Umweltbedingungen und Überdauerung in einem inaktiven Tönnchenstadium verantwortlich sind. Zum ersten Mal wird dafür ein metabolischer Netzwerkansatz vorgeschlagen, der metabolische Veränderungen durch die Integration von metabolischen und transkriptomischen Daten bestimmt. Abschließend ist zu bemerken, dass die präsentierte integrierte Netzwerkanalyse eine adäquate Technik ist, um experimentelle Daten aus Hochdurchsatz-Methoden, die spezialisiert auf eine Molekülart sind, mit ihren intermolekularen Wechselwirkungen und Abhängigkeiten in Verbindung zu bringen. Sie ist flexibel in der Anwendung auf verschiedenste Daten, von der Analyse von Genexpressionsveränderungen, über Metabolitvorkommen bis zu Proteinmodifikationen, in Kombination mit einem geeigneten molekularen Netzwerk. Der exakte Algorithmus ist akkurat und robust in Vergleich zu heuristischen Methoden und liefert eine optimale, robuste Lösung in Form eines Konsensusmoduls mit zugewiesenen Konfidenzwerten. Durch die Integration verschiedenster Informationsquellen und gleichzeitige Betrachtung eines biologischen Ereignisses von diversen Blickwinkeln aus, können neue und vollständigere Erkenntnisse physiologischer Prozesse gewonnen werden. KW - Bioinformatik KW - differenzielle Genexpression KW - Bioinformatik KW - Netzwerkanalyse KW - differenzielle Genexpression KW - funktionelle Module KW - bioinformatics KW - networkanalysis KW - differential geneexpression KW - functional modules Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-70150 ER - TY - THES A1 - Förster, Frank T1 - Making the most of phylogeny: Unique adaptations in tardigrades and 216374 internal transcribed spacer 2 structures T1 - Einzigartige Anpassungen in Tardigraden und 216374 "internal transcribed spacer 2" Strukturen N2 - The phylum Tardigrada consists of about 1000 described species to date. The animals live in habitats within marine, freshwater and terrestrial ecosystems allover the world. Tardigrades are polyextremophiles. They are capable to resist extreme temperature, pressure or radiation. In the event of desiccation, tardigrades enter a so-called tun stage. The reason for their great tolerance capabilities against extreme environmental conditions is not discovered yet. Our Funcrypta project aims at finding answers to the question what mechanisms underlie these adaption capabilities particularly with regard to the species Milnesium tardigradum. The first part of this thesis describes the establishment of expressed sequence tags (ESTs) libraries for different stages of M. tardigradum. From proteomics data we bioinformatically identified 144 proteins with a known function and additionally 36 proteins which seemed to be specific for M. tardigradum. The generation of a comprehensive web-based database allows us to merge the proteome and transcriptome data. Therefore we created an annotation pipeline for the functional annotation of the protein and nucleotide sequences. Additionally, we clustered the obtained proteome dataset and identified some tardigrade-specific proteins (TSPs) which did not show homology to known proteins. Moreover, we examined the heat shock proteins of M. tardigradum and their different expression levels depending on the actual state of the animals. In further bioinformatical analyses of the whole data set, we discovered promising proteins and pathways which are described to be correlated with the stress tolerance, e.g. late embryogenesis abundant (LEA) proteins. Besides, we compared the tardigrades with nematodes, rotifers, yeast and man to identify shared and tardigrade specific stress pathways. An analysis of the 50 and 30 untranslated regions (UTRs) demonstrates a strong usage of stabilising motifs like the 15-lipoxygenase differentiation control element (15-LOX-DICE) but also reveals a lack of other common UTR motifs normally used, e.g. AU rich elements. The second part of this thesis focuses on the relatedness between several cryptic species within the tardigrade genus Paramacrobiotus. Therefore for the first time, we used the sequence-structure information of the internal transcribed spacer 2 (ITS2) as a phylogenetic marker in tardigrades. This allowed the description of three new species which were indistinguishable using morphological characters or common molecular markers like the 18S ribosomal ribonucleic acid (rRNA) or the Cytochrome c oxidase subunit I (COI). In a large in silico simulation study we also succeeded to show the benefit for the phylogenetic tree reconstruction by adding structure information to the ITS2 sequence. Next to the genus Paramacrobiotus we used the ITS2 to corroborate a monophyletic DO-group (Sphaeropleales) within the Chlorophyceae. Additionally we redesigned another comprehensive database—the ITS2 database resulting in a doubled number of sequence-structure pairs of the ITS2. In conclusion, this thesis shows the first insights (6 first author publications and 4 coauthor publications) into the reasons for the enormous adaption capabilities of tardigrades and offers a solution to the debate on the phylogenetic relatedness within the tardigrade genus Paramacrobiotus. N2 - Der Tierstamm Tardigrada besteht aus derzeitig etwa 1000 beschriebenen Arten. Die Tiere leben in Habitaten in marinen, limnischen und terrestrischen Ökosystemen auf der ganzen Welt. Tardigraden sind polyextremophil. Sie können extremer Temperatur, Druck oder Strahlung widerstehen. Beim Austrocknen bilden sie ein so genanntes Tönnchenstadium. Der Grund für die hohe Toleranz gegenüber extremen Umweltbedingungen ist bis jetzt nicht aufgeklärt worden. Unser Funcrypta Projekt versucht Antworten darauf zu finden, was die hinter dieser Anpassungsfähigkeit liegenden Mechanismen sind. Dabei steht die Art Milnesium tardigradum im Mittelpunkt. Der erste Teil dieser Arbeit beschreibt die Etablierung einer expressed sequence tags (ESTs) Bibliothek für verschiedene Stadien von M. tardigradum. Aus unseren Proteomansatz konnten wir bislang 144 Proteine bioinformatisch identifizieren, denen eine Funktion zugeordnet werden konnte. Darüber hinaus wurden 36 Proteine gefunden, welche spezifisch für M. tardigradum zu sein scheinen. Die Erstellung einer umfassenden internetbasierenden Datenbank erlaubt uns die Verknüpfung der Proteom und Transkriptomdaten. Dafür wurde eine Annotations-Pipeline erstellt um den Sequenzen Funktionen zuordnen zu können. Außerdem wurden die erhaltenen Proteindaten von uns geclustert. Dabei konnten wir einige Tardigraden-spezifische Proteine (tardigrade-specific protein, TSP) identifizieren die keinerlei Homologie zu bekannten Proteinen zeigen. Außerdem untersuchten wir die Hitze-Schock-Proteine von M. tardigradum und deren differenzielle Expression in Abhängigkeit vom Stadium der Tiere. In weiteren bioinformatischen Analysen konnten wir viel versprechende Proteine und Stoffwechselwege entdecken für die beschrieben ist, dass sie mit Stressreaktionen in Verbindung stehen, beispielsweise late embryogenesis abundant (LEA) Proteine. Des Weiteren verglichen wir Tardigraden mit Nematoden, Rotatorien, Hefe und dem Menschen, um gemeinsame und Tardigraden-spezifische Stoffwechselwege identifizieren zu können. Analysen der 50 und 30 untranslatierten Bereiche zeigen eine verstärkte Nutzung von stabilisierenden Motiven, wie dem 15-lipoxygenase differentiation control element (LEA). Im Gegensatz dazu werden häufig benutzte Motive, wie beispielsweise AU-reiche Bereiche, gar nicht gefunden. Der zweite Teil der Doktorarbeit beschäftigt sich mit den Verwandtschaftsverhältnissen einiger kryptischer Arten in der Tardigradengattung Paramacrobiotus. Hierfür haben wir, zum ersten Mal in Tardigraden, die Sequenz-Struktur-Informationen der internal transcribed spacer 2 Region als phylogenetischen Marker verwendet. Dies erlaubte uns die Beschreibung von drei neuen Arten, welche mit klassischen morphologischen Merkmalen oder anderen molekularen Markern wie 18S ribosomaler RNA oder Cytochrome c oxidase subunit I (COI) nicht unterschieden werden konnten. In einer umfangreichen in silico Simulationsstudie zeigten wir den Vorteil der bei der Rekonstruktion phylogenetischer Bäume unter der Hinzunahme der Strukturinformationen zur Sequenz der ITS2 entsteht. ITS2 Sequenz-Struktur-Informationen wurden außerdem auch dazu benutzt, eine monophyletische DO-Gruppe (Sphaeropleales) in den Chlorophyceae zu bestätigen. Zusätzlich haben wir eine umfassende Datenbank, die ITS2-Datenbank, überarbeitet. Dadurch konnten die Sequenz-Struktur-Informationen verdoppelt werden, die in dieser Datenbank verfügbar sind. Die vorliegende Doktorarbeit zeigt erste Einblicke (6 Erstautor- und 4 Koautor-Publikationen) in die Ursachen für die hervorragende Anpassungsfähigkeit der Tardigraden und beschreibt die erfolgreiche Aufklärung der Verwandtschaftsverhältnisse in der Tardigradengattung Paramacrobiotus. KW - Phylogenie KW - Bioinformatik KW - Würzburg / Universität / Lehrstuhl für Bioinformatik KW - Anpassung KW - Datenbank KW - ITS2 KW - Marker KW - Tardigraden KW - Bärtierchen KW - ITS2 KW - Marker KW - Tardigrades KW - Waterbear Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-51466 ER - TY - THES A1 - Vainshtein, Yevhen T1 - Applying microarray‐based techniques to study gene expression patterns: a bio‐computational approach T1 - Anwendung von Mikroarrayanalysen um Genexpressionsmuster zu untersuchen: Ein bioinformatischer Ansatz N2 - The regulation and maintenance of iron homeostasis is critical to human health. As a constituent of hemoglobin, iron is essential for oxygen transport and significant iron deficiency leads to anemia. Eukaryotic cells require iron for survival and proliferation. Iron is part of hemoproteins, iron-sulfur (Fe-S) proteins, and other proteins with functional groups that require iron as a cofactor. At the cellular level, iron uptake, utilization, storage, and export are regulated at different molecular levels (transcriptional, mRNA stability, translational, and posttranslational). Iron regulatory proteins (IRPs) 1 and 2 post-transcriptionally control mammalian iron homeostasis by binding to iron-responsive elements (IREs), conserved RNA stem-loop structures located in the 5’- or 3‘- untranslated regions of genes involved in iron metabolism (e.g. FTH1, FTL, and TFRC). To identify novel IRE-containing mRNAs, we integrated biochemical, biocomputational, and microarray-based experimental approaches. Gene expression studies greatly contribute to our understanding of complex relationships in gene regulatory networks. However, the complexity of array design, production and manipulations are limiting factors, affecting data quality. The use of customized DNA microarrays improves overall data quality in many situations, however, only if for these specifically designed microarrays analysis tools are available. Methods In this project response to the iron treatment was examined under different conditions using bioinformatical methods. This would improve our understanding of an iron regulatory network. For these purposes we used microarray gene expression data. To identify novel IRE-containing mRNAs biochemical, biocomputational, and microarray-based experimental approaches were integrated. IRP/IRE messenger ribonucleoproteins were immunoselected and their mRNA composition was analysed using an IronChip microarray enriched for genes predicted computationally to contain IRE-like motifs. Analysis of IronChip microarray data requires specialized tool which can use all advantages of a customized microarray platform. Novel decision-tree based algorithm was implemented using Perl in IronChip Evaluation Package (ICEP). Results IRE-like motifs were identified from genomic nucleic acid databases by an algorithm combining primary nucleic acid sequence and RNA structural criteria. Depending on the choice of constraining criteria, such computational screens tend to generate a large number of false positives. To refine the search and reduce the number of false positive hits, additional constraints were introduced. The refined screen yielded 15 IRE-like motifs. A second approach made use of a reported list of 230 IRE-like sequences obtained from screening UTR databases. We selected 6 out of these 230 entries based on the ability of the lower IRE stem to form at least 6 out of 7 bp. Corresponding ESTs were spotted onto the human or mouse versions of the IronChip and the results were analysed using ICEP. Our data show that the immunoselection/microarray strategy is a feasible approach for screening bioinformatically predicted IRE genes and the detection of novel IRE-containing mRNAs. In addition, we identified a novel IRE-containing gene CDC14A (Sanchez M, et al. 2006). The IronChip Evaluation Package (ICEP) is a collection of Perl utilities and an easy to use data evaluation pipeline for the analysis of microarray data with a focus on data quality of custom-designed microarrays. The package has been developed for the statistical and bioinformatical analysis of the custom cDNA microarray IronChip, but can be easily adapted for other cDNA or oligonucleotide-based designed microarray platforms. ICEP uses decision tree-based algorithms to assign quality flags and performs robust analysis based on chip design properties regarding multiple repetitions, ratio cut-off, background and negative controls (Vainshtein Y, et al., 2010). N2 - Die Regulierung und Aufrechterhaltung der Eisen-Homeostase ist bedeutend für die menschliche Gesundheit. Als Bestandteil des Hämoglobins ist es wichtig für den Transport von Sauerstoff, ein Mangel führt zu Blutarmut. Eukaryotische Zellen benötigen Eisen zum Überleben und zum Proliferieren. Eisen ist am Aufbau von Hämo- und Eisenschwefelproteinen (Fe-S) beteiligt und kann als Kofaktor dienen. Die Aufnahme, Nutzung, Speicherung und der Export von Eisen ist zellulär auf verschiedenen molekularen Ebenen reguliert (Transkription, mRNA-Level, Translation, Protein-Level). Die iron regulatory proteins (IRPs) 1 und 2 kontrollieren die Eisen-Homeostase in Säugetieren posttranslational durch die Bindung an Iron-responsive elements (IREs). IREs sind konservierte RNA stem-loop Strukturen in den 5' oder 3' untranslatierten Bereichen von Genen, die im Eisenmetabolismus involviert sind (z.B. FTH1, FTL und TFRC). In dieser Arbeit wurden biochemische und bioinformatische Methoden mit Microarray-Experimenten kombiniert, um neue mRNAs mit IREs zu identifizieren. Genexpressionsstudien verbessern unser Verständnis über die komplexen Zusammenhänge in genregulatorischen Netzwerken. Das komplexe Design von Microarrays, deren Produktion und Manipulation sind dabei die limitierenden Faktoren bezüglich der Datenqualität. Die Verwendung von angepassten DNA Microarrays verbessert häufig die Datenqualität, falls entsprechende Analysemöglichkeiten für diese Arrays existieren. Methoden Um unser Verständnis von eisenregulierten Netzwerken zu verbessern, wurde im Rahmen dieses Projektes die Auswirkung einer Behandlung mit Eisen bzw. von Knockout Mutation unter verschiedenen Bedingungen mittels bioinformatischer Methoden untersucht. Hierfür nutzen wir Expressionsdaten aus Microarray-Experimenten. Durch die Verknüpfung von biochemischen, bioinformatischen und Microarray Ansätzen können neue Proteine mit IREs identifiziert werden. IRP/IRE messenger Ribonucleoproteine wurden immunpräzipitiert. Die Zusammensetzung der enthaltenen mRNAs wurde mittels einem IronChip Microarray analysiert: Für diesen Chip wurden bioinformatisch Gene vorhergesagt, die IRE-like Motive aufweisen. Der Chip wurde mit solchen Oligonucleotiden beschichtet und durch Hybridisierung überprüft, ob die präzipitierten mRNA sich hieran binden. Die Analyse der erhaltenen Daten erfordert ein spezialisiertes Werkzeug um von allen Vorteilen der angepassten Microarrays zu profitieren. Ein neuer Entscheidungsbaum-basierter Algorithmus wurde in Perl im IronChip Evaluation Package (ICEP) implementiert. Ergebnisse Aus großen Sequenz-Datenbanken wurden IRE-like Motive identifiziert. Dazu kombiniert der Algorithmus, insbesondere RNA-Primärsequenz und RNA-Strukturdaten. Solche Datenbankanalysen tendieren dazu, eine große Anzahl falsch positiver Treffer zu generieren. Daher wurden zusätzliche Bedingungen formuliert, um die Suche zu verfeinern und die Anzahl an falsch positiven Treffer zu reduzieren. Die angepassten Suchkriterien ergaben 15 IRE-like Motive. In einem weiteren Ansatz verwendeten wir eine Liste von 230 IRE-like Sequenzen aus UTR-Datenbanken. Daraus wurden 6 Sequenzen ausgewählt, die auch im unteren Teil stabil sind (untere Helix über 6 bp stabil). Die korrespondierenden Expressed Sequence Tags (ESTs) wurden auf die humane oder murine Version des IronChips aufgetragen. Die Microarray Ergebnisse wurden mit dem ICEP Programm ausgewertet. Unsere Ergebnisse zeigen, dass die Immunpräzipitation mit anschließender Microarrayanalyse ein nützlicher Ansatz ist, um bioinformatisch vorhergesagte IRE-Gene zu identifizieren. Darüber hinaus ermöglicht uns dieser Ansatz die Detektion neuer mRNAs, die IREs enthalten, wie das von uns gefundene Gen CDC14A (Sanchez et al., 2006). ICEP ist ein optimiertes Programmpaket aus Perl Programmen (Vainshtein et al., BMC Bioinformatics, 2010). Es ermöglicht die einfache Auswertung von Microarray Daten mit dem Fokus auf selbst entwickelten Microarray Designs. ICEP diente für die statistische und bioinformatische Analyse von selbst entwickelten IronChips, kann aber auch leicht an die Analyse von oligonucleotidbasierten oder cDNA Microarrays adaptiert werden. ICEP nutzt einen Entscheidungsbaum-basierten Algorithmus um die Qualität zu bewerten und führt eine robuste Analyse basierend auf Chipeigenschaften, wie mehrfachen Wiederholungen, Signal/Rausch Verhältnis, Hintergrund und Negativkontrollen durch. KW - Microarray KW - Genexpression KW - Bioinformatik KW - geneexpression KW - microarrays KW - IronChip KW - ICEP Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-51967 ER - TY - THES A1 - Arumugam, Manimozhiyan T1 - Comparative metagenomic analysis of the human intestinal microbiota T1 - Vergleichende metagenomische Analyse des menschlichen Darmflora N2 - The human gut is home for thousands of microbes that are important for human life. As most of these cannot be cultivated, metagenomics is an important means to understand this important community. To perform comparative metagenomic analysis of the human gut microbiome, I have developed SMASH (Simple metagenomic analysis shell), a computational pipeline. SMASH can also be used to assemble and analyze single genomes, and has been successfully applied to the bacterium Mycoplasma pneumoniae and the fungus Chaetomium thermophilum. In the context of the MetaHIT (Metagenomics of the human intestinal tract) consortium our group is participating in, I used SMASH to validate the assembly and to estimate the assembly error rate of 576.7 Gb metagenome sequence obtained using Illumina Solexa technology from fecal DNA of 124 European individuals. I also estimated the completeness of the gene catalogue containing 3.3 million open reading frames obtained from these metagenomes. Finally, I used SMASH to analyze human gut metagenomes of 39 individuals from 6 countries encompassing a wide range of host properties such as age, body mass index and disease states. We find that the variation in the gut microbiome is not continuous but stratified into enterotypes. Enterotypes are complex host-microbial symbiotic states that are not explained by host properties, nutritional habits or possible technical biases. The concept of enterotypes might have far reaching implications, for example, to explain different responses to diet or drug intake. We also find several functional markers in the human gut microbiome that correlate with a number of host properties such as body mass index, highlighting the need for functional analysis and raising hopes for the application of microbial markers as diagnostic or even prognostic tools for microbiota-associated human disorders. N2 - Der menschliche Darm beheimatet tausende Mikroben, die für das menschliche Leben wichtig sind. Da die meisten dieser Mikroben nicht kultivierbar sind, ist „Metagenomics“ ein wichtiges Werkzeug zum Verständnis dieser wichtigen mikrobiellen Gemeinschaft. Um vergleichende Metagenomanalysen durchführen zu können, habe ich das Computerprogramm SMASH (Simple metagenomic analysis shell) entwickelt. SMASH kann auch zur Assemblierung und Analyse von Einzelgenomen benutzt werden und wurde erfolgreich auch das Bakterium Mycoplasma pneumoniae und den Pilz Chaetomium thermophilum angewandt. Im Zusammenhang mit der Beteiligung unserer Arbeitsgruppe am MetaHIT (Metagenomics of the human intestinal tract) Konsortium, habe ich SMASH benutzt um die Assemblierung zu validieren und die Fehlerrate der Assemblierung von 576.7 Gb Metagenomsequenzen, die mit der Illumina Solexa Technologie aus der fäkalen DNS von 124 europäischen Personen gewonnen wurde, zu bestimmen. Des Weiteren habe ich die Vollständigkeit des Genkatalogs dieser Metagenome, der 3.3 Millionen offene Leserahmen enthält, geschätzt. Zuletzt habe ich SMASH benutzt um die Darmmetagenome von 39 Personen aus 6 Ländern zu analysieren. Hauptergebnis dieser Analyse war, dass die Variation der Darmmikrobiota nicht kontinuierlich ist. Anstatt dessen fanden wir so genannte Enterotypen. Enterotypen sind komplexe Zustände der Symbiose zwischen Wirt und Mikroben, die sich nicht durch Wirteigenschaften, wie Alter, Body-Mass-Index, Erkrankungen und Ernährungseigenschaften oder ein mögliches technisches Bias erklären lassen. Das Konzept der Enterotypen könnte weitgehende Folgen haben. Diese könnten zum Beispiel die unterschiedlichen Reaktionen auf Diäten oder Medikamenteneinahmen erklären. Weiterhin konnten wir eine Anzahl an Markern im menschlichen Darmmikrobiome finden, die mit unterschiedlichen Wirtseigenschaften wie dem Body-Mass-Index korrelieren. Dies hebt die Wichtigkeit dieser Analysemethode hervor und erweckt Hoffnungen auf Anwendung mikrobieller Marker als diagnostisches oder sogar prognostisches Werkzeug für menschliche Erkrankungen in denen das Mikrobiom eine Rolle spielt. KW - Darmflora KW - Metagenom KW - Bioinformatik KW - human gut microbiome KW - metagenomics KW - comparative metagenomics KW - computational analysis Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-55903 ER - TY - THES A1 - Liang, Chunguang T1 - Tools for functional genomics applied to Staphylococci, Listeriae, Vaccinia virus and other organisms N2 - Genome sequence analysis A combination of genome analysis application has been established here during this project. This offers an efficient platform to interactively compare similar genome regions and reveal loci differences. The genes and operons can be rapidly analyzed and local collinear blocks (LCBs) categorized according to their function. The features of interests are parsed, recognized, and clustered into reports. Phylogenetic relationships can be readily examined such as the evolution of critical factors or a certain highly-conserved region. The resulting platform-independent software packages (GENOVA and inGeno), have been proven to be efficient and easy to handle in a number of projects. The capabilities of the software allowed the investigation of virulence factors, e.g., rsbU, strains’ biological design, and in particular pathogenicity feature storage and management. We have successfully investigated the genomes of Staphylococcus aureus strains (COL, N315, 8325, RN1HG, Newman), Listeria spp. (welshimeri, innocua and monocytogenes), E.coli strains (O157:H7 and MG1655) and Vaccinia strains (WR, Copenhagen, Lister, LIVP, GLV-1h68 and parental strains). Metabolic network analysis Our YANAsquare package offers a workbench to rapidly establish the metabolic network of such as Staphylococcous aureus bacteria in genome-scale size as well as metabolic networks of interest such as the murine phagosome lipid signalling network. YANAsquare recruits reactions from online databases using an integrated KEGG browser. This reduces the efforts in building large metabolic networks. The involved calculation routines (METATOOL-derived wrapper or native Java implementation) readily obtain all possible flux modes (EM/EP) for metabolite fluxes within the network. Advanced layout algorithms visualize the topological structure of the network. In addition, the generated structure can be dynamically modified in the graphic interface. The generated network as well as the manipulated layout can be validated and stored (XML file: scheme of SBML level-2). This format can be further parsed and analyzed by other systems biology software, such as CellDesigner. Moreover, the integrated robustness-evaluation routine is able to examine the synthesis rates affected by each single mutation throughout the whole network. We have successfully applied the method to simulate single and multiple gene knockouts, and the affected fluxes are comprehensively revealed. Recently we applied the method to proteomic data and extra-cellular metabolite data of Staphylococci, the physiological changes regarding the flux distribution are studied. Calculations at different time points, including different conditions such as hypoxia or stress, show a good fit to experimental data. Moreover, using the proteomic data (enzyme amounts) calculated from 2D-Gel-EP experiments our study provides a way to compare the fluxome and the enzyme expression. Oncolytic vaccinia virus (VACV) We investigated the genetic differences between the de novo sequence of the recombinant oncolytic GLV-1h68 and other related VACVs, including function predictions for all found genome differences. Our phylogenetic analysis indicates that GLV-1h68 is closest to Lister strains but has lost several ORFs present in its parental LIVP strain, including genes encoding CrmE and a viral Golgi anti-apoptotic protein, v-GAAP. Functions of viral genes were either strain-specific, tissue-specific or host-specific comparing viral genes in the Lister, WR and COP strains. This helps to rationally design more optimized oncolytic virus strains to benefit cancer therapy in human patients. Identified differences from the comparison in open reading frames (ORFs) include genes for host-range selection, virulence and immune modulation proteins, e.g. ankyrin-like proteins, serine proteinase inhibitor SPI-2/CrmA, tumor necrosis factor (TNF) receptor homolog CrmC, semaphorin-like and interleukin-1 receptor homolog proteins. The contribution of foreign gene expression cassettes in the therapeutic and oncolytic virus GLV-1h68 was studied, including the F14.5L, J2R and A56R loci. The contribution of F14.5L inactivation to the reduced virulence is demonstrated by comparing the virulence data of GLV-1h68 with its F14.5L-null and revertant viruses. The comparison suggests that insertion of a foreign gene expression cassette in a nonessential locus in the viral genome is a practical way to attenuate VACVs, especially if the nonessential locus itself contains a virulence gene. This reduces the virulence of the virus without compromising too much the replication competency of the virus, the key to its oncolytic activity. The reduced pathogenicity of GLV-1h68 was confirmed by our experimental collaboration partners in male mice bearing C6 rat glioma and in immunocompetent mice bearing B16-F10 murine melanoma. In conclusion, bioinformatics and experimental data show that GLV-1h68 is a promising engineered VACV variant for anticancer therapy with tumor-specific replication, reduced pathogenicity and benign tissue tropism. N2 - Genom Sequenz Analyse Im Zuge der vorliegenden Doktorarbeit wurden verschiedene Programme zur Genomanalyse kombiniert, um eine effiziente Plattform zum interaktiven Vergleich lokaler Ähnlichkeiten bzw. Unterschiede in Genomen bereitzustellen. Damit können Gene und Operons schnell untersucht und “local collinear blocks” entsprechend ihrer Funktion kategorisiert werden. Phylogenetische Beziehungen, wie beispielsweise die Evolution spezifischer Elemente oder stark konservierter Regionen können leicht überprüft werden. Die hierfür entwickelte plattformunabhängige Software (GENOVA und inGeno) hat sich in mehreren Projekten als effizient und leicht handhabbar bewährt. Die Programme erlauben die Untersuchung von Virulenzfaktoren auf Sequenz- oder Annotationsebene. Während der vorliegenden Doktorarbeit konnten so die Genome von verschiedenen Staphylococcus aureus, Listeria spp., Escherichia coli und Vaccinia Stämmen untersucht werden. Metabolische Netzwerk Analyse Unser “YANAsquare” Programmpaket bietet eine Oberfläche um schnell metabolische Netzwerke vom genomweiten Anzatz bis hinunter zum Einzelnetzwerk zu analysieren. Dafür greift YANA mit Hilfe des integrierten KEGG-Browsers auf Onlinedatenbanken zu, um die notwendigen Informationen zum metabolischen Reaktionsweg bereitzustellen und reduziert so maßgeblich den Arbeitsaufwand beim Beschreiben von Netzwerke. Die implementierten Methoden zur Berechnung (METATOOL, eigene Implementation in Java) des Netzwerkes liefern exakt alle die möglichen Elementarmoden (EM/EP) für die Metabolite zurück. Durch den Einsatz von fortgeschrittenen Layout Algorithmen wird anschliessend die Darstellung der Netzwerktopologie möglich. Außerdem kann in der grafischen Darstellung das generierte Netzwerklayout dynamisch verändert werden. Das Speichern der Daten erfolgt im XML (SBML level-2) Format und erlaubt so die Weiterverwendung in anderen systembiologischen Programmen, wie dem “CellDesigner”. Mit Hilfe einer gen-Knockout Simulations Methode kann der Einfluss von einzelnen Mutationen im gesamten Netzwerk auf die Syntheseraten untersucht werden. Wir konnten mit dieser Methode Einzel- sowie Mehrfachgenknockouts und deren Effekte auf die Elementarmoden analysieren. Die Methode wurde ebenfalls auf Proteomdaten und extrazelluläre Metabolite von Staphylokokken angewandt, um Änderungen bezüglich der Flussverteilung zu untersuchen. Die Simulationen zu verschieden Zeitpunkten und unter verschiedenen Stessbedingungen zeigen große Übereinstimmung mit experimentell erhobenen Daten. Onkolytischer Vaccinia Virus (VACV) Wir haben die genetischen Unterschiede zwischen der de novo Sequenz des rekombinanten onkolytischen Virus GLV-1h68 und anderen VACVs untersucht und gefundene Unterschiede funktionell charakterisiert. Die phylogenetische Analyse zeigt das GLV-1h68 mit dem Lister Stamm am nächsten verwandt ist. Auffällig ist dabei der Verlust von einigen open reading frames (ORFs), die noch im Eltern LIVP Stamm vorhanden sind (CrmE, v-GAAP). Beim Vergleich der Funktion viraler Gene aus Lister, WR und COP Stämmen treten stamm-, gewebe- und wirtsspezifische Gene auf. Diese Tatsache ermöglicht die Optimierung der onkolytischen Virusstämme für den Einsatz bei humanen Krebstherapien. Die beim Vergleich identifizierten Unterschiede zwischen den ORFs enthalten Gene für die Wirtsselektion, Virulenz und immunmodulierende Proteine (Ankyrin ähnliche Proteine, Serine-Proteinasen Inhibitor SPI-2/CrmA, Tumor Nekrose Faktor (TNF) Rezeptorhomolog CrmC, semaphorinähnliche und Interleukin-1 rezeptorhomologe Proteine). An den Loki F14.5L, J2R und A56R des GLV-1h68 Virus wurden die Vorteile der eingesetzten fremden Genexpressionskassetten untersucht. So zeigt GLV-1h68 mit F14.5L-Inaktivierung gegenüber der F14.5L-Revertanten Viren eine reduzierte Virulenz. Das erlaubt die Schlussfolgerung, dass die Insertion von fremden Genexpressionskassetten in nicht-essentielle Loki zur Verminderung der Virulenz von VACVs führt, besonders, wenn der nicht-essentielle Lokus selbst ein Virulenzgen enthält. Das Replikationsvermögen, welches ausschlaggebend für die onkolytische Aktivität des Virus ist, wird trotz der verminderten Virulenz nicht eingeschränkt. Die reduzierte Pathogenität des GLV-1h68 Virus wurde durch experimentelle Daten unserer Kollaborationspartner in männlichen Mäusen mit Ratten C6 Gliom und in immunokompetenten Mäusen mit B16-F10 Mausmelanom nachgewiesen. Zusammenfassend zeigen experimentelle und bioinformatisch gewonnene Daten, dass GLV-1h68 eine vielversprechende VACV Variante für die Krebstherapie mit tumorspezifischer Replikation, verringerter Pathogenität und hoher Gewebsspezifität ist. KW - Genanalyse KW - Bioinformatik KW - Systembiologie KW - bacterial KW - virulence KW - systems biologie KW - genomic KW - algorithm KW - metabolic KW - network KW - pathway KW - flux KW - Bacterial KW - genomics KW - algorithm KW - tool KW - metabolic Y1 - 2009 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-48051 ER - TY - THES A1 - Förstner, Konrad Ulrich T1 - Computational analysis of metagenomic data: delineation of compositional features and screens for desirable enzymes T1 - Computergestützte Analyse von Metagenomedate: Beschreibung von kompositionellen Eigenschaften und Suchen nach gewünschten Enzymen N2 - The topic of my doctorial research was the computational analysis of metagenomic data. A metagenome comprises the genomic information from all the microorganisms within a certain environment. The currently available metagenomic data sets cover only parts of these usually huge metagenomes due to the high technical and financial effort of such sequencing endeavors. During my thesis I developed bioinformatic tools and applied them to analyse genomic features of different metagenomic data sets and to search for enzymes of importance for biotechnology or pharmaceutical applications in those sequence collections. In these studies nine metagenomic projects (with up to 41 subsamples) were analysed. These samples originated from diverse environments like farm soil, acid mine drainage, microbial mats on whale bones, marine water, fresh water, water treatment sludges and the human gut flora. Additionally, data sets of conventionally retrieved sequence data were taken into account and compared with each other N2 - Das Thema meiner Doktorarbeit war die bioinformatische Analyse von metagenomischen Sequenzdaten. Ein Metagenom umfasst die genomische Information aller Mikroorganismen eines Biotops. Die bisher durchgeführten metagenomische Projekte sequenzierten auf Grund des technischen und finanziellen Aufwands einer solchen Unternehmung nur kleine Teile dieser im allgemeinen sehr großen Metagenome. Im Zuge meiner Doktorarbeit, die auf solchen Sequenzierungprojekten aufbaut, wurden bioinformatische Werkzeuge entwickelt und angewandt um genomische Eigenschaften verschiedener metagenomische Datensätze zu analysieren und um biotechnologisch und pharmakologisch relevante Enzyme exemplarisch in diesen Datensätzen zu suchen. In den Analysen wurden neun publizierte, metagenomische Projektedatensammlungen (teilweise mit bis zu 41 Subproben) untersucht. Die Probem stammen von zahlreichen unterschiedlichen Habitaten wie Farmerde, sauerer Minendrainage, dem mikrobiellen Belag auf Walknochen, Meerwasser, Süßwasser, Abwasseraufbereitungssschlamm und der menschlichen Darmu flora. Zusätzlich wurden in den meisten Analysen konventionell gewonnene Sequenzdaten vergleichend hinzugezogen und analysiert. KW - Bioinformatik KW - Metagenomomanalyse KW - GC-Wert KW - Enyzme KW - PKS KW - NHase KW - Nitrilase KW - Metagenomics KW - GC-value KW - enzymes KW - PKS KW - NHase KW - Nitrilase Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-33577 ER -