TY - THES A1 - Breitenbach, Tim T1 - A mathematical optimal control based approach to pharmacological modulation with regulatory networks and external stimuli T1 - Ein auf mathematischer Optimalkontrolle basierender Ansatz für pharmakologische Modulation mit regulatorischen Netzwerken und externen Stimuli N2 - In this work models for molecular networks consisting of ordinary differential equations are extended by terms that include the interaction of the corresponding molecular network with the environment that the molecular network is embedded in. These terms model the effects of the external stimuli on the molecular network. The usability of this extension is demonstrated with a model of a circadian clock that is extended with certain terms and reproduces data from several experiments at the same time. Once the model including external stimuli is set up, a framework is developed in order to calculate external stimuli that have a predefined desired effect on the molecular network. For this purpose the task of finding appropriate external stimuli is formulated as a mathematical optimal control problem for which in order to solve it a lot of mathematical methods are available. Several methods are discussed and worked out in order to calculate a solution for the corresponding optimal control problem. The application of the framework to find pharmacological intervention points or effective drug combinations is pointed out and discussed. Furthermore the framework is related to existing network analysis tools and their combination for network analysis in order to find dedicated external stimuli is discussed. The total framework is verified with biological examples by comparing the calculated results with data from literature. For this purpose platelet aggregation is investigated based on a corresponding gene regulatory network and associated receptors are detected. Furthermore a transition from one to another type of T-helper cell is analyzed in a tumor setting where missing agents are calculated to induce the corresponding switch in vitro. Next a gene regulatory network of a myocardiocyte is investigated where it is shown how the presented framework can be used to compare different treatment strategies with respect to their beneficial effects and side effects quantitatively. Moreover a constitutively activated signaling pathway, which thus causes maleficent effects, is modeled and intervention points with corresponding treatment strategies are determined that steer the gene regulatory network from a pathological expression pattern to physiological one again. N2 - In dieser Arbeit werden Modelle für molekulare Netzwerke bestehend aus gewöhnlichen Differentialgleichungen durch Terme erweitert, die die Wechselwirkung zwischen dem entsprechenden molekularen Netzwerk und der Umgebung berücksichtigen, in die das molekulare Netzwerk eingebettet ist. Diese Terme modellieren die Effekte von externen Stimuli auf das molekulare Netzwerk. Die Nutzbarkeit dieser Erweiterung wird mit einem Modell der circadianen Uhr demonstriert, das mit gewissen Termen erweitert wird und Daten von mehreren verschiedenen Experimenten zugleich reproduziert. Sobald das Modell einschließlich der externen Stimuli aufgestellt ist, wird eine Grundstruktur entwickelt um externe Stimuli zu berechnen, die einen gewünschten vordefinierte Effekt auf das molekulare Netzwerk haben. Zu diesem Zweck wird die Aufgabe, geeignete externe Stimuli zu finden, als ein mathematisches optimales Steuerungsproblem formuliert, für welches, um es zu lösen, viele mathematische Methoden zur Verfügung stehen. Verschiedene Methoden werden diskutiert und ausgearbeitet um eine Lösung für das entsprechende optimale Steuerungsproblem zu berechnen. Auf die Anwendung dieser Grundstruktur pharmakologische Interventionspunkte oder effektive Wirkstoffkombinationen zu finden, wird hingewiesen und diese diskutiert. Weiterhin wird diese Grundstruktur in Bezug zu existierenden Netzwerkanalysewerkzeugen gesetzt und ihre Kombination für die Netzwerkanalyse diskutiert um zweckbestimmte externe Stimuli zu finden. Die gesamte Grundstruktur wird mit biologischen Beispielen verifiziert, indem man die berechneten Ergebnisse mit Daten aus der Literatur vergleicht. Zu diesem Zweck wird die Blutplättchenaggregation untersucht basierend auf einem entsprechenden genregulatorischen Netzwerk und damit assoziierte Rezeptoren werden detektiert. Weiterhin wird ein Wechsel von einem T-Helfer Zelltyp in einen anderen in einer Tumorumgebung analysiert, wobei fehlende Agenzien berechnet werden um den entsprechenden Wechsel in vitro zu induzieren. Als nächstes wird ein genregulatorisches Netzwerk eines Myokardiozyten untersucht, wobei gezeigt wird wie die präsentierte Grundstruktur genutzt werden kann um verschiedene Behandlungsstrategien in Bezug auf ihre nutzbringenden Wirkungen und Nebenwirkungen quantitativ zu vergleichen. Darüber hinaus wird ein konstitutiv aktivierter Signalweg, der deshalb unerwünschte Effekte verursacht, modelliert und Interventionspunkte mit entsprechenden Behandlungsstrategien werden bestimmt, die das genregulatorische Netzwerk wieder von einem pathologischen Expressionsmuster zu einem physiologischen steuern. KW - Bioinformatik KW - systematic drug targeting KW - optimal drug combination KW - disease modelling KW - external stimuli KW - intervention point analyzing KW - Molekülsystem KW - Reiz Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-174368 ER - TY - THES A1 - Vainshtein, Yevhen T1 - Applying microarray‐based techniques to study gene expression patterns: a bio‐computational approach T1 - Anwendung von Mikroarrayanalysen um Genexpressionsmuster zu untersuchen: Ein bioinformatischer Ansatz N2 - The regulation and maintenance of iron homeostasis is critical to human health. As a constituent of hemoglobin, iron is essential for oxygen transport and significant iron deficiency leads to anemia. Eukaryotic cells require iron for survival and proliferation. Iron is part of hemoproteins, iron-sulfur (Fe-S) proteins, and other proteins with functional groups that require iron as a cofactor. At the cellular level, iron uptake, utilization, storage, and export are regulated at different molecular levels (transcriptional, mRNA stability, translational, and posttranslational). Iron regulatory proteins (IRPs) 1 and 2 post-transcriptionally control mammalian iron homeostasis by binding to iron-responsive elements (IREs), conserved RNA stem-loop structures located in the 5’- or 3‘- untranslated regions of genes involved in iron metabolism (e.g. FTH1, FTL, and TFRC). To identify novel IRE-containing mRNAs, we integrated biochemical, biocomputational, and microarray-based experimental approaches. Gene expression studies greatly contribute to our understanding of complex relationships in gene regulatory networks. However, the complexity of array design, production and manipulations are limiting factors, affecting data quality. The use of customized DNA microarrays improves overall data quality in many situations, however, only if for these specifically designed microarrays analysis tools are available. Methods In this project response to the iron treatment was examined under different conditions using bioinformatical methods. This would improve our understanding of an iron regulatory network. For these purposes we used microarray gene expression data. To identify novel IRE-containing mRNAs biochemical, biocomputational, and microarray-based experimental approaches were integrated. IRP/IRE messenger ribonucleoproteins were immunoselected and their mRNA composition was analysed using an IronChip microarray enriched for genes predicted computationally to contain IRE-like motifs. Analysis of IronChip microarray data requires specialized tool which can use all advantages of a customized microarray platform. Novel decision-tree based algorithm was implemented using Perl in IronChip Evaluation Package (ICEP). Results IRE-like motifs were identified from genomic nucleic acid databases by an algorithm combining primary nucleic acid sequence and RNA structural criteria. Depending on the choice of constraining criteria, such computational screens tend to generate a large number of false positives. To refine the search and reduce the number of false positive hits, additional constraints were introduced. The refined screen yielded 15 IRE-like motifs. A second approach made use of a reported list of 230 IRE-like sequences obtained from screening UTR databases. We selected 6 out of these 230 entries based on the ability of the lower IRE stem to form at least 6 out of 7 bp. Corresponding ESTs were spotted onto the human or mouse versions of the IronChip and the results were analysed using ICEP. Our data show that the immunoselection/microarray strategy is a feasible approach for screening bioinformatically predicted IRE genes and the detection of novel IRE-containing mRNAs. In addition, we identified a novel IRE-containing gene CDC14A (Sanchez M, et al. 2006). The IronChip Evaluation Package (ICEP) is a collection of Perl utilities and an easy to use data evaluation pipeline for the analysis of microarray data with a focus on data quality of custom-designed microarrays. The package has been developed for the statistical and bioinformatical analysis of the custom cDNA microarray IronChip, but can be easily adapted for other cDNA or oligonucleotide-based designed microarray platforms. ICEP uses decision tree-based algorithms to assign quality flags and performs robust analysis based on chip design properties regarding multiple repetitions, ratio cut-off, background and negative controls (Vainshtein Y, et al., 2010). N2 - Die Regulierung und Aufrechterhaltung der Eisen-Homeostase ist bedeutend für die menschliche Gesundheit. Als Bestandteil des Hämoglobins ist es wichtig für den Transport von Sauerstoff, ein Mangel führt zu Blutarmut. Eukaryotische Zellen benötigen Eisen zum Überleben und zum Proliferieren. Eisen ist am Aufbau von Hämo- und Eisenschwefelproteinen (Fe-S) beteiligt und kann als Kofaktor dienen. Die Aufnahme, Nutzung, Speicherung und der Export von Eisen ist zellulär auf verschiedenen molekularen Ebenen reguliert (Transkription, mRNA-Level, Translation, Protein-Level). Die iron regulatory proteins (IRPs) 1 und 2 kontrollieren die Eisen-Homeostase in Säugetieren posttranslational durch die Bindung an Iron-responsive elements (IREs). IREs sind konservierte RNA stem-loop Strukturen in den 5' oder 3' untranslatierten Bereichen von Genen, die im Eisenmetabolismus involviert sind (z.B. FTH1, FTL und TFRC). In dieser Arbeit wurden biochemische und bioinformatische Methoden mit Microarray-Experimenten kombiniert, um neue mRNAs mit IREs zu identifizieren. Genexpressionsstudien verbessern unser Verständnis über die komplexen Zusammenhänge in genregulatorischen Netzwerken. Das komplexe Design von Microarrays, deren Produktion und Manipulation sind dabei die limitierenden Faktoren bezüglich der Datenqualität. Die Verwendung von angepassten DNA Microarrays verbessert häufig die Datenqualität, falls entsprechende Analysemöglichkeiten für diese Arrays existieren. Methoden Um unser Verständnis von eisenregulierten Netzwerken zu verbessern, wurde im Rahmen dieses Projektes die Auswirkung einer Behandlung mit Eisen bzw. von Knockout Mutation unter verschiedenen Bedingungen mittels bioinformatischer Methoden untersucht. Hierfür nutzen wir Expressionsdaten aus Microarray-Experimenten. Durch die Verknüpfung von biochemischen, bioinformatischen und Microarray Ansätzen können neue Proteine mit IREs identifiziert werden. IRP/IRE messenger Ribonucleoproteine wurden immunpräzipitiert. Die Zusammensetzung der enthaltenen mRNAs wurde mittels einem IronChip Microarray analysiert: Für diesen Chip wurden bioinformatisch Gene vorhergesagt, die IRE-like Motive aufweisen. Der Chip wurde mit solchen Oligonucleotiden beschichtet und durch Hybridisierung überprüft, ob die präzipitierten mRNA sich hieran binden. Die Analyse der erhaltenen Daten erfordert ein spezialisiertes Werkzeug um von allen Vorteilen der angepassten Microarrays zu profitieren. Ein neuer Entscheidungsbaum-basierter Algorithmus wurde in Perl im IronChip Evaluation Package (ICEP) implementiert. Ergebnisse Aus großen Sequenz-Datenbanken wurden IRE-like Motive identifiziert. Dazu kombiniert der Algorithmus, insbesondere RNA-Primärsequenz und RNA-Strukturdaten. Solche Datenbankanalysen tendieren dazu, eine große Anzahl falsch positiver Treffer zu generieren. Daher wurden zusätzliche Bedingungen formuliert, um die Suche zu verfeinern und die Anzahl an falsch positiven Treffer zu reduzieren. Die angepassten Suchkriterien ergaben 15 IRE-like Motive. In einem weiteren Ansatz verwendeten wir eine Liste von 230 IRE-like Sequenzen aus UTR-Datenbanken. Daraus wurden 6 Sequenzen ausgewählt, die auch im unteren Teil stabil sind (untere Helix über 6 bp stabil). Die korrespondierenden Expressed Sequence Tags (ESTs) wurden auf die humane oder murine Version des IronChips aufgetragen. Die Microarray Ergebnisse wurden mit dem ICEP Programm ausgewertet. Unsere Ergebnisse zeigen, dass die Immunpräzipitation mit anschließender Microarrayanalyse ein nützlicher Ansatz ist, um bioinformatisch vorhergesagte IRE-Gene zu identifizieren. Darüber hinaus ermöglicht uns dieser Ansatz die Detektion neuer mRNAs, die IREs enthalten, wie das von uns gefundene Gen CDC14A (Sanchez et al., 2006). ICEP ist ein optimiertes Programmpaket aus Perl Programmen (Vainshtein et al., BMC Bioinformatics, 2010). Es ermöglicht die einfache Auswertung von Microarray Daten mit dem Fokus auf selbst entwickelten Microarray Designs. ICEP diente für die statistische und bioinformatische Analyse von selbst entwickelten IronChips, kann aber auch leicht an die Analyse von oligonucleotidbasierten oder cDNA Microarrays adaptiert werden. ICEP nutzt einen Entscheidungsbaum-basierten Algorithmus um die Qualität zu bewerten und führt eine robuste Analyse basierend auf Chipeigenschaften, wie mehrfachen Wiederholungen, Signal/Rausch Verhältnis, Hintergrund und Negativkontrollen durch. KW - Microarray KW - Genexpression KW - Bioinformatik KW - geneexpression KW - microarrays KW - IronChip KW - ICEP Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-51967 ER - TY - THES A1 - Blenk, Steffen T1 - Bioinformatical analysis of B-cell lymphomas T1 - Bioinformatische Analyse von B-Zell Lymphomen N2 - Background: The frequency of the most observed cancer, Non Hodgkin Lymphoma (NHL), is further rising. Diffuse large B-cell lymphoma (DLBCL) is the most common of the NHLs. There are two subgroups of DLBCL with different gene expression patterns: ABC (“Activated B-like DLBCL”) and GCB (“Germinal Center B-like DLBCL”). Without therapy the patients often die within a few months, the ABC type exhibits the more aggressive behaviour. A further B-cell lymphoma is the Mantle cell lymphoma (MCL). It is rare and shows very poor prognosis. There is no cure yet. Methods: In this project these B-cell lymphomas were examined with methods from bioinformatics, to find new characteristics or undiscovered events on the molecular level. This would improve understanding and therapy of lymphomas. For this purpose we used survival, gene expression and comparative genomic hybridization (CGH) data. In some clinical studies, you get large data sets, from which one can reveal yet unknown trends. Results (MCL): The published proliferation signature correlates directly with survival. Exploratory analyses of gene expression and CGH data of MCL samples (n=71) revealed a valid grouping according to the median of the proliferation signature values. The second axis of correspondence analysis distinguishes between good and bad prognosis. Statistical testing (moderate t-test, Wilcoxon rank-sum test) showed differences in the cell cycle and delivered a network of kinases, which are responsible for the difference between good and bad prognosis. A set of seven genes (CENPE, CDC20, HPRT1, CDC2, BIRC5, ASPM, IGF2BP3) predicted, similarly well, survival patterns as proliferation signature with 20 genes. Furthermore, some bands could be associated with prognosis in the explorative analysis (chromosome 9: 9p24, 9p23, 9p22, 9p21, 9q33 and 9q34). Results (DLBCL): New normalization of gene expression data of DLBCL patients revealed better separation of risk groups by the 2002 published signature based predictor. We could achieve, similarly well, a separation with six genes. Exploratory analysis of gene expression data could confirm the subgroups ABC and GCB. We recognized a clear difference in early and late cell cycle stages of cell cycle genes, which can separate ABC and GCB. Classical lymphoma and best separating genes form a network, which can classify and explain the ABC and GCB groups. Together with gene sets which identify ABC and GCB we get a network, which can classify and explain the ABC and GCB groups (ASB13, BCL2, BCL6, BCL7A, CCND2, COL3A1, CTGF, FN1, FOXP1, IGHM, IRF4, LMO2, LRMP, MAPK10, MME, MYBL1, NEIL1 and SH3BP5; Altogether these findings are useful for diagnosis, prognosis and therapy (cytostatic drugs). N2 - Hintergrund: Die Häufigkeit von Non-Hodgkin-Lymphomen (NHL), den am meisten beobachteten Krebserkrankungen, steigt weiter an. Von den aggressiven Non-Hodgkin-Lymphomen (NHL) macht das “großzellige, diffuse B-Zell-Lymphom” (DLBCL) den größten Anteil aus. Durch Genexpressionsmuster wurden zwei Subtypen definiert: ACB (“Activated B-like DLBCL”) und GCB (“Germinal Center B-like DLBCL”). Die Patienten der Gruppe ABC sterben ohne Therapie oft innerhalb weniger Monate, weil der ABC Typ einen aggressiveren Krankheitsverlauf aufweist. Ein weiteres, von einer malignen Entartung der B-Lymphozyten ausgehendes Lymphom, ist das “Mantelzell Lymphom” (MCL). Es tritt selten auf und ist ebenfalls mit einer schlechten Prognose verbunden. Eine vollständige Heilung nach der Therapie ist sehr selten. Methoden: In diesem Projekt wurden diese B-zell Lymphome mit bioinformatischen Methoden untersucht, um auf molekularer Ebene neue Eigenschaften oder bisher unentdeckte Zusammenhänge zu finden. Das würde das Verständnis und damit auch die Therapie voranbringen. Dafür standen uns Überlebens-, Genexpressions- und chromosomale Aberrationsdaten zur Verfügung. Sie sind die bevorzugte Wahl der Mittel, um genetische Veränderungen in Tumorzellen zu bestimmen. Hierbei fallen oft große Datenmengen an, aus welchen man mit bioinformatischen Methoden vorher unerkannte Trends und Hinweise identifizieren kann. Ergebnisse (MCL): Explorative Analysen sowohl der Genexpressions- (zweite Hauptachse der Korrespondenz Analyse) als auch der chromosomalen Aberrationsdaten des Mantelzell-Lymphom zeigten uns hierbei, daß es trotz der linearen Korrelation zwischen der veröffentlichten Proliferationssignatur und der Überlebenszeit sinnvoll ist, in den Patienten (n=71) zwei Ausprägungen zu betrachten: Patienten mit schlechter und mit guter Prognose. Statistische Tests (moderate t-test, Wilcoxon rank-sum test) dieser beiden Typen zeigten Unterschiede im Zellzyklus und ein Netzwerk von Kinasen auf, welche für den Unterschied zwischen guter und schlechter Prognose verantwortlich sind. Sieben Gene (CENPE, CDC20, HPRT1, CDC2, BIRC5, ASPM, IGF2BP3) konnten gefunden werden, die eine ähnliche gute Prognose für Überlebenszeiten ermöglichen, wie eine früher veröffentlichte Proliferationssignatur mit 20 Genen. Außerdem konnten chromosomale Banden durch eine explorative Analyse mit der Prognose assoziiert werden (Chromosom 9: 9p24, 9p23, 9p22, 9p21, 9q33 and 9q34). Ergebnisse (DLBCL): Durch geeignete Normalisierung der Genexpressionsdaten von 248 DLBCL-Patienten trennte der Signatur basierte Predictor die Risikogruppen nun besser auf. Eine ähnlich gute Auftrennung konnte von uns sogar mit sechs Genen erreicht werden. Die explorative Analyse der Genexpressionsdaten konnte die Subtypen ABC und GCB als valide Gruppen bestätigen. In den Genen, die ABC und GCB unterscheiden, ergab sich eine Häufung in späten und frühen Zellzyklusstadien. Klassische Lymphommarker, neu aufgefundene spezielle Gene und Zellzyklusgene bilden ein Netzwerk, das die ABC und GCB Gruppen klassifizieren und Unterschiede in deren Regulation erklären kann (ASB13, BCL2, BCL6, BCL7A, CCND2, COL3A1, CTGF, FN1, FOXP1, IGHM, IRF4, LMO2, LRMP, MAPK10, MME, MYBL1, NEIL1 and SH3BP5. Dies ist auch für die Diagnose, Prognose und Therapie (Zytostatika) interessant. KW - Bioinformatik KW - Genexpression KW - Auswertung KW - B-Zell-Lymphom KW - Diffuses großzelliges B-Zell-Lymphom KW - Mantelzell-Lymphom KW - Bioinformatics KW - gene expression KW - B-cell lymphoma KW - Diffuse large B-cell lymphoma (DLBCL) KW - Mantle cell lymphoma (MCL) Y1 - 2007 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-27421 ER - TY - THES A1 - Arumugam, Manimozhiyan T1 - Comparative metagenomic analysis of the human intestinal microbiota T1 - Vergleichende metagenomische Analyse des menschlichen Darmflora N2 - The human gut is home for thousands of microbes that are important for human life. As most of these cannot be cultivated, metagenomics is an important means to understand this important community. To perform comparative metagenomic analysis of the human gut microbiome, I have developed SMASH (Simple metagenomic analysis shell), a computational pipeline. SMASH can also be used to assemble and analyze single genomes, and has been successfully applied to the bacterium Mycoplasma pneumoniae and the fungus Chaetomium thermophilum. In the context of the MetaHIT (Metagenomics of the human intestinal tract) consortium our group is participating in, I used SMASH to validate the assembly and to estimate the assembly error rate of 576.7 Gb metagenome sequence obtained using Illumina Solexa technology from fecal DNA of 124 European individuals. I also estimated the completeness of the gene catalogue containing 3.3 million open reading frames obtained from these metagenomes. Finally, I used SMASH to analyze human gut metagenomes of 39 individuals from 6 countries encompassing a wide range of host properties such as age, body mass index and disease states. We find that the variation in the gut microbiome is not continuous but stratified into enterotypes. Enterotypes are complex host-microbial symbiotic states that are not explained by host properties, nutritional habits or possible technical biases. The concept of enterotypes might have far reaching implications, for example, to explain different responses to diet or drug intake. We also find several functional markers in the human gut microbiome that correlate with a number of host properties such as body mass index, highlighting the need for functional analysis and raising hopes for the application of microbial markers as diagnostic or even prognostic tools for microbiota-associated human disorders. N2 - Der menschliche Darm beheimatet tausende Mikroben, die für das menschliche Leben wichtig sind. Da die meisten dieser Mikroben nicht kultivierbar sind, ist „Metagenomics“ ein wichtiges Werkzeug zum Verständnis dieser wichtigen mikrobiellen Gemeinschaft. Um vergleichende Metagenomanalysen durchführen zu können, habe ich das Computerprogramm SMASH (Simple metagenomic analysis shell) entwickelt. SMASH kann auch zur Assemblierung und Analyse von Einzelgenomen benutzt werden und wurde erfolgreich auch das Bakterium Mycoplasma pneumoniae und den Pilz Chaetomium thermophilum angewandt. Im Zusammenhang mit der Beteiligung unserer Arbeitsgruppe am MetaHIT (Metagenomics of the human intestinal tract) Konsortium, habe ich SMASH benutzt um die Assemblierung zu validieren und die Fehlerrate der Assemblierung von 576.7 Gb Metagenomsequenzen, die mit der Illumina Solexa Technologie aus der fäkalen DNS von 124 europäischen Personen gewonnen wurde, zu bestimmen. Des Weiteren habe ich die Vollständigkeit des Genkatalogs dieser Metagenome, der 3.3 Millionen offene Leserahmen enthält, geschätzt. Zuletzt habe ich SMASH benutzt um die Darmmetagenome von 39 Personen aus 6 Ländern zu analysieren. Hauptergebnis dieser Analyse war, dass die Variation der Darmmikrobiota nicht kontinuierlich ist. Anstatt dessen fanden wir so genannte Enterotypen. Enterotypen sind komplexe Zustände der Symbiose zwischen Wirt und Mikroben, die sich nicht durch Wirteigenschaften, wie Alter, Body-Mass-Index, Erkrankungen und Ernährungseigenschaften oder ein mögliches technisches Bias erklären lassen. Das Konzept der Enterotypen könnte weitgehende Folgen haben. Diese könnten zum Beispiel die unterschiedlichen Reaktionen auf Diäten oder Medikamenteneinahmen erklären. Weiterhin konnten wir eine Anzahl an Markern im menschlichen Darmmikrobiome finden, die mit unterschiedlichen Wirtseigenschaften wie dem Body-Mass-Index korrelieren. Dies hebt die Wichtigkeit dieser Analysemethode hervor und erweckt Hoffnungen auf Anwendung mikrobieller Marker als diagnostisches oder sogar prognostisches Werkzeug für menschliche Erkrankungen in denen das Mikrobiom eine Rolle spielt. KW - Darmflora KW - Metagenom KW - Bioinformatik KW - human gut microbiome KW - metagenomics KW - comparative metagenomics KW - computational analysis Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-55903 ER - TY - THES A1 - Förstner, Konrad Ulrich T1 - Computational analysis of metagenomic data: delineation of compositional features and screens for desirable enzymes T1 - Computergestützte Analyse von Metagenomedate: Beschreibung von kompositionellen Eigenschaften und Suchen nach gewünschten Enzymen N2 - The topic of my doctorial research was the computational analysis of metagenomic data. A metagenome comprises the genomic information from all the microorganisms within a certain environment. The currently available metagenomic data sets cover only parts of these usually huge metagenomes due to the high technical and financial effort of such sequencing endeavors. During my thesis I developed bioinformatic tools and applied them to analyse genomic features of different metagenomic data sets and to search for enzymes of importance for biotechnology or pharmaceutical applications in those sequence collections. In these studies nine metagenomic projects (with up to 41 subsamples) were analysed. These samples originated from diverse environments like farm soil, acid mine drainage, microbial mats on whale bones, marine water, fresh water, water treatment sludges and the human gut flora. Additionally, data sets of conventionally retrieved sequence data were taken into account and compared with each other N2 - Das Thema meiner Doktorarbeit war die bioinformatische Analyse von metagenomischen Sequenzdaten. Ein Metagenom umfasst die genomische Information aller Mikroorganismen eines Biotops. Die bisher durchgeführten metagenomische Projekte sequenzierten auf Grund des technischen und finanziellen Aufwands einer solchen Unternehmung nur kleine Teile dieser im allgemeinen sehr großen Metagenome. Im Zuge meiner Doktorarbeit, die auf solchen Sequenzierungprojekten aufbaut, wurden bioinformatische Werkzeuge entwickelt und angewandt um genomische Eigenschaften verschiedener metagenomische Datensätze zu analysieren und um biotechnologisch und pharmakologisch relevante Enzyme exemplarisch in diesen Datensätzen zu suchen. In den Analysen wurden neun publizierte, metagenomische Projektedatensammlungen (teilweise mit bis zu 41 Subproben) untersucht. Die Probem stammen von zahlreichen unterschiedlichen Habitaten wie Farmerde, sauerer Minendrainage, dem mikrobiellen Belag auf Walknochen, Meerwasser, Süßwasser, Abwasseraufbereitungssschlamm und der menschlichen Darmu flora. Zusätzlich wurden in den meisten Analysen konventionell gewonnene Sequenzdaten vergleichend hinzugezogen und analysiert. KW - Bioinformatik KW - Metagenomomanalyse KW - GC-Wert KW - Enyzme KW - PKS KW - NHase KW - Nitrilase KW - Metagenomics KW - GC-value KW - enzymes KW - PKS KW - NHase KW - Nitrilase Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-33577 ER - TY - THES A1 - Thakar, Juilee T1 - Computational models for the study of responses to infections T1 - Bioinformatische Modelle zur Analyse der Immunantwort auf Infektionen N2 - In diesem Jahrhundert haben neue experimentelle Techniken und Computer-Verfahren enorme Mengen an Information erzeugt, die bereits viele biologische Rätsel enthüllt haben. Doch die Komplexität biologischer Systeme wirft immer weitere neue Fragen auf. Um ein System zu verstehen, bestand der Hauptansatz bis jetzt darin, es in Komponenten zu zerlegen, die untersucht werden können. Ein neues Paradigma verknüpft die einzelnen Informationsteile, um sie auf globaler Ebene verstehen zu können. In der vorgelegten Doktorarbeit habe ich deshalb versucht, infektiöse Krankheiten mit globalen Methoden („Systembiologie“) bioinformatisch zu untersuchen. Im ersten Teil wird der Apoptose-Signalweg analysiert. Apoptose (Programmierter Zelltod) wird bei verschiedenen Infektionen, zum Beispiel bei Viruserkrankungen, als Abwehrmaßnahme eingesetzt. Die Interaktionen zwischen Proteinen, die ‚death’ Domänen beinhalten, wurden untersucht, um folgende Fragen zu klären: i) wie wird die Spezifität der Interaktionen erzielt? –sie wird durch Adapter erreicht, ii) wie werden Proliferation/ Überlebenssignale während der Aktivierung der Apoptose eingeleitet? – wir fanden Hinweise für eine entscheidende Rolle des RIP Proteins (Rezeptor-Interagierende Serine/Threonine-Proteinkinase 1). Das Modell erlaubte uns, die Interaktions-Oberflächen von RIP vorherzusagen. Der Signalweg wurde anschließend auf globaler Ebene mit Simulationen für verschiedene Zeitpunkte analysiert, um die Evolution der Aktivatoren und Inhibitoren des Signalwegs und seine Struktur besser zu verstehen. Weiterhin wird die Signalverarbeitung für Apoptosis-Signalwege in der Maus detailliert modelliert, um den Konzentrationsverlauf der Effektor-Kaspasen vorherzusagen. Weitere experimentelle Messungen von Kaspase-3 und die Überlebenskurven von Zellen bestätigen das Modell. Der zweite Teil der Resultate konzentriert sich auf das Phagosom, eine Organelle, die eine entscheidende Rolle bei der Eliminierung von Krankheitserregern spielt. Dies wird am Beispiel von M. tuberculosis veranschaulicht. Die Fragestellung wird wiederum in zwei Aspekten behandelt: i) Um die Prozesse, die durch M. tuberculosis inhibiert werden zu verstehen, haben wir uns auf das Phospholipid-Netzwerk konzentriert, das bei der Unterdrückung oder Aktivierung der Aktin-Polymerisation eine große Rolle spielt. Wir haben für diese Netzwerkanalyse eine Simulation für verschiedene Zeitpunkte ähnlich wie in Teil eins angewandt. ii) Es wird vermutet, dass Aktin-Polymere bei der Fusion des Phagosoms mit dem Lysosom eine Rolle spielen. Um diese Hypothese zu untersuchen, wurde ein in silico Modell von uns entwickelt. Wir fanden heraus, dass in der Anwesenheit von Aktin-Polymeren die Suchzeit für das Lysosom um das Fünffache reduziert wurde. Weiterhin wurden die Effekte der Länge der Aktin-Polymere, die Größe der Lysosomen sowie der Phagosomen und etliche andere Modellparameter analysiert. Nach der Untersuchung eines Signalwegs und einer Organelle führte der nächste Schritt zur Untersuchung eines komplexen biologischen Systems der Infektabwehr. Dies wurde am Beispiel der Wirt-Pathogen Interaktion bei Bordetella pertussis und Bordetella bronchiseptica dargestellt. Die geringe Menge verfügbarer quantitativer Daten war der ausschlaggebende Faktor bei unserer Modellwahl. Für die dynamische Simulation wurde ein selbst entwickeltes Bool’sches Modell verwendet. Die Ergebnisse sagen wichtige Faktoren bei der Pathologie von Bordetellen hervor, besonders die Bedeutung der Th1 assoziierten Antworten und dagegen nicht der Th2 assoziierten Antworten für die Eliminierung des Pathogens. Einige der quantitativen Vorhersagen wurden durch Experimente wie die Untersuchung des Verlaufs einer Infektion in verschiedenen Mutanten und Wildtyp-Mäusen überprüft. Die begrenzte Verfügbarkeit kinetischer Daten war der kritische Faktor bei der Auswahl der computer-gestützten Modelle. Der Erfolg unserer Modelle konnte durch den Vergleich mit experimentellen Beobachtungen belegt werden. Die vergleichenden Modelle in Kapitel 6 und 9 können zur Untersuchung neuer Wirt-Pathogen Interaktionen verwendet werden. Beispielsweise führt in Kapitel 6 die Analyse von Inhibitoren und inhibitorischer Signalwege aus drei Organismen zur Identifikation wichtiger regulatorischer Zentren in komplexen Organismen und in Kapitel 9 ermöglicht die Identifikation von drei Phasen in B. bronchiseptica und der Inhibition von IFN-γ durch den Faktor TTSS die Untersuchung ähnlicher Phasen und die Inhibition von IFN-γ in B. pertussis. Eine weitere wichtige Bedeutung bekommen diese Modelle durch die mögliche Identifikation neuer, essentieller Komponenten in Wirt-Pathogen Interaktionen. In silico Modelle der Effekte von Deletionen zeigen solche Komponenten auf, die anschließend durch experimentelle Mutationen weiter untersucht werden können. N2 - In this century new experimental and computational techniques are adding an enormous amount of information, revealing many biological mysteries. The complexities of biological systems still broach new questions. Till now the main approach to understand a system has been to divide it in components that can be studied. The upcoming new paradigm is to combine the pieces of information in order to understand it at a global level. In the present thesis we have tried to study infectious diseases with such a global ‘Systems Biology’ approach. In the first part the apoptosis pathway is analyzed. Apoptosis (Programmed cell death) is used as a counter measure in different infections, for example viral infections. The interactions between death domain containing proteins are studied to address the following questions: i) How specificity is maintained - showing that it is induced through adaptors, ii) how proliferation/ survival signals are induced during activation of apoptosis – suggesting the pivotal role of RIP. The model also allowed us to detect new possible interacting surfaces. The pathway is then studied at a global level in a time step simulation to understand the evolution of the topology of activators and inhibitors of the pathway. Signal processing is further modeled in detail for the apoptosis pathway in M. musculus to predict the concentration time course of effector caspases. Further, experimental measurements of caspase-3 and viability of cells validate the model. The second part focuses on the phagosome, an organelle which plays an essential role in removal of pathogens as exemplified by M. tuberculosis. Again the problem is addressed in two main sections: i) To understanding the processes that are inhibited by M. tuberculosis; we focused on the phospholipid network applying a time step simulation in section one, which plays an important role in inhibition or activation of actin polymerization on the phagosome membrane. ii) Furthermore, actin polymers are suggested to play a role in the fusion of the phagosome with lysosome. To check this hypothesis an in silico model was developed; we find that the search time is reduced by 5 fold in the presence of actin polymers. Further the effect of length of actin polymers, dimensions of lysosome, phagosome and other model parameter is analyzed. After studying a pathway and then an organelle, the next step was to move to the system. This was exemplified by the host pathogen interactions between Bordetella pertussis and Bordetella bronchiseptica. The limited availability of quantitative information was the crucial factor behind the choice of the model type. A Boolean model was developed which was used for a dynamic simulation. The results predict important factors playing a role in Bordetella pathology especially the importance of Th1 related responses and not Th2 related responses in the clearance of the pathogen. Some of the quantitative predictions have been counterchecked by experimental results such as the time course of infection in different mutants and wild type mice. All these computational models have been developed in presence of limited kinetic data. The success of these models has been validated by comparison with experimental observations. Comparative models studied in chapters 6 and 9 can be used to explore new host pathogen interactions. For example in chapter 6, the analysis of inhibitors and inhibitory paths in three organism leads to the identification of regulatory hotspots in complex organisms and in chapter 9 the identification of three phases in B. bronchiseptica and inhibition of IFN-γ by TTSS lead us to explore similar phases and inhibition of IFN-γ in B. pertussis. Further an important significance of these models is to identify new components playing an essential role in host-pathogen interactions. In silico deletions can point out such components which can be further analyzed by experimental mutations. KW - Bordetella pertussis KW - Infektion KW - Apoptosis KW - Signaltransduktion KW - Bioinformatik KW - Tuberkelbakterium KW - Biologische Kaskaden KW - Bordetellae KW - M. tuberculosis KW - Apoptose KW - Biological cascades KW - Bordetellae KW - M. tuberculosis KW - Apoptosis Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-17266 ER - TY - THES A1 - Karl, Stefan T1 - Control Centrality in Non-Linear Biological Networks T1 - Kontrollzentralität in nichtlinearen biologischen Netzwerken N2 - Biological systems such as cells or whole organisms are governed by complex regulatory networks of transcription factors, hormones and other regulators which determine the behavior of the system depending on internal and external stimuli. In mathematical models of these networks, genes are represented by interacting “nodes” whose “value” represents the activity of the gene. Control processes in these regulatory networks are challenging to elucidate and quantify. Previous control centrality metrics, which aim to mathematically capture the ability of individual nodes to control biological systems, have been found to suffer from problems regarding biological plausibility. This thesis presents a new approach to control centrality in biological networks. Three types of network control are distinguished: Total control centrality quantifies the impact of gene mutations and identifies potential pharmacological targets such as genes involved in oncogenesis (e.g. zinc finger protein GLI2 or bone morphogenetic proteins in chondrocytes). Dynamic control centrality describes relaying functions as observed in signaling cascades (e.g control in mouse colon stem cells). Value control centrality measures the direct influence of the value of the node on the network (e.g. Indian hedgehog as an essential regulator of proliferation in chondrocytes). Well-defined network manipulations define all three centralities not only for nodes, but also for the interactions between them, enabling detailed insights into network pathways. The calculation of the new metrics is made possible by substantial computational improvements in the simulation algorithms for several widely used mathematical modeling paradigms for genetic regulatory networks, which are implemented in the regulatory network simulation framework Jimena created for this thesis. Applying the new metrics to biological networks and artificial random networks shows how these mathematical concepts correspond to experimentally verified gene functions and signaling pathways in immunity and cell differentiation. In contrast to controversial previous results even from the Barabási group, all results indicate that the ability to control biological networks resides in only few driver nodes characterized by a high number of connections to the rest of the network. Autoregulatory loops strongly increase the controllability of the network, i.e. its ability to control itself, and biological networks are characterized by high controllability in conjunction with high robustness against mutations, a combination that can be achieved best in sparsely connected networks with densities (i.e. connections to nodes ratios) around 2.0 - 3.0. The new concepts are thus considerably narrowing the gap between network science and biology and can be used in various areas such as system modeling, plausibility trials and system analyses. Medical applications discussed in this thesis include the search for oncogenes and pharmacological targets, as well their functional characterization. N2 - Biologische Systeme wie Zellen aber auch ganze Organismen werden durch ein komplexes Netzwerk von Transkriptionsfaktoren, Hormonen und anderen Regulatoren kontrolliert, welche das Verhalten des Systems in Abhängigkeit von internen und externen Einflüssen steuern. In mathematischen Modellen dieser Netzwerke werden Gene durch „Knoten“ repräsentiert, deren „Wert“ die Aktivität des Gens wiederspiegelt. Kontrollvorgänge in diesen Regulationsnetzwerken sind schwierig zu quantifizieren. Existierende Maße für die Kontrollzentralität, d.h. die Fähigkeit einzelner Knoten biologische Systeme zu kontrollieren, zeigen vor allem Probleme mit der biologischen Plausibilität der Ergebnisse. Diese Dissertation stellt eine neue Definition der Kontrollzentralität vor. Dabei werden drei Typen der Kontrollzentralität unterschieden: Totale Kontrollzentralität quantifiziert den Einfluss von Mutationen eines Gens und hilft mögliche pharmakologische Ziele wie etwa Onkogene (z. B. das Zinkfingerprotein GLI2 oder Bone Morphogenetic Proteins in Chondrozyten) zu identifizieren. Dynamische Kontrollzentralität beschreibt signalweiterleitende Funktionen in Signalkaskaden (z. B. in Kontrollprozessen in Stammzellen des Mauskolons). Wert-Kontrollzentralität misst den Einfluss des Werts des Knotens (zum Beispiel die Rolle von Indian hedgehog als essentieller Regulator der Chondrozytenproliferation). Durch gezielte Manipulation von Netzwerken können die Zentralitäten nicht nur für Knoten, sondern auch für die Interaktionen zwischen ihnen bestimmt werden, was detaillierte Einblicke in Netzwerkpfade erlaubt. Möglich wird die Berechnung der neuen Maße durch substantielle Verbesserungen der Simulationsalgorithmen mehrerer häufig verwendeter mathematischer Muster für Genregulationsnetzwerke, welche in der für diese Dissertation entwickelten Software Jimena implementiert wurden. Durch die Anwendung der neuen Metriken auf biologische Netzwerke und künstliche Zufallsnetzwerke kann gezeigt werden, dass die mathematischen Konzepte experimentell bestätigte Funktionen von Genen und Signalpfaden im Immunsystem und der Zelldifferenzierung korrekt wiedergeben. Im Gegensatz zu umstrittenen Ergebnissen der Forschungsgruppe Barabási zeigt sich hier, dass die Fähigkeit, biologische Netzwerke zu kontrollieren, in nur wenigen Knoten konzentriert ist, welche sich vor allem durch viele Verbindungen zum Rest des Netzwerks auszeichnen. Knoten, welche ihre eigene Expression beeinflussen, steigern die Fähigkeit eines Netzwerkes sich selbst zu kontrollieren (Kontrollierbarkeit), und biologische Netzwerke zeichnen sich durch hohe Kontrollierbarkeit bei gleichzeitig hoher Resistenz gegenüber Mutationen aus. Diese Kombination kann am besten durch eher schwach verbundene Netzwerke erreicht werden, bei denen auf einen Knoten nur etwa 2 bis 3 Verbindungen kommen. Die neuen Konzepte schlagen so eine Brücke zwischen Netzwerkwissenschaften und Biologie, und sind in einer Vielzahl von Gebieten wie der Modellierung von Systemen sowie der Überprüfung ihrer Plausibilität und ihrer Analyse anwendbar. Medizinische Anwendungen, auf welche in dieser Dissertation eingegangen wird, sind zum Beispiel die Suche nach Onkogenen und pharmakologischen Zielen, aber auch deren funktionelle Analyse. KW - Bioinformatik KW - Genregulation KW - Nichtlineare Differentialgleichung KW - Genetic regulatory networks KW - Control centrality Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-150838 ER - TY - THES A1 - Yu, Sung-Huan T1 - Development and application of computational tools for RNA-Seq based transcriptome annotations T1 - Entwicklung und Anwendung bioinformatischer Werkzeuge für RNA-Seq-basierte Transkriptom-Annotationen N2 - In order to understand the regulation of gene expression in organisms, precise genome annotation is essential. In recent years, RNA-Seq has become a potent method for generating and improving genome annotations. However, this Approach is time consuming and often inconsistently performed when done manually. In particular, the discovery of non-coding RNAs benefits strongly from the application of RNA-Seq data but requires significant amounts of expert knowledge and is labor-intensive. As a part of my doctoral study, I developed a modular tool called ANNOgesic that can detect numerous transcribed genomic features, including non-coding RNAs, based on RNA-Seq data in a precise and automatic fashion with a focus on bacterial and achaeal species. The software performs numerous analyses and generates several visualizations. It can generate annotations of high-Resolution that are hard to produce using traditional annotation tools that are based only on genome sequences. ANNOgesic can detect numerous novel genomic Features like UTR-derived small non-coding RNAs for which no other tool has been developed before. ANNOgesic is available under an open source license (ISCL) at https://github.com/Sung-Huan/ANNOgesic. My doctoral work not only includes the development of ANNOgesic but also its application to annotate the transcriptome of Staphylococcus aureus HG003 - a strain which has been a insightful model in infection biology. Despite its potential as a model, a complete genome sequence and annotations have been lacking for HG003. In order to fill this gap, the annotations of this strain, including sRNAs and their functions, were generated using ANNOgesic by analyzing differential RNA-Seq data from 14 different samples (two media conditions with seven time points), as well as RNA-Seq data generated after transcript fragmentation. ANNOgesic was also applied to annotate several bacterial and archaeal genomes, and as part of this its high performance was demonstrated. In summary, ANNOgesic is a powerful computational tool for RNA-Seq based annotations and has been successfully applied to several species. N2 - Exakte Genomannotationen sind essentiell für das Verständnis Genexpressionsregulation in verschiedenen Organismen. In den letzten Jahren entwickelte sich RNA-Seq zu einer äußerst wirksamen Methode, um solche Genomannotationen zu erstellen und zu verbessern. Allerdings ist das Erstellen von Genomannotationen bei manueller Durchführung noch immer ein zeitaufwändiger und inkonsistenter Prozess. Die Verwendung von RNA-Seq-Daten begünstigt besonders die Identifizierung von nichtkodierenden RNAs, was allerdings arbeitsintensiv ist und fundiertes Expertenwissen erfordert. Ein Teil meiner Promotion bestand aus der Entwicklung eines modularen Tools namens ANNOgesic, das basierend auf RNA-Seq-Daten in der Lage ist, eine Vielzahl von Genombestandteilen, einschließlich nicht-kodierender RNAs, automatisch und präzise zu ermitteln. Das Hauptaugenmerk lag dabei auf der Anwendbarkeit für bakterielle und archaeale Genome. Die Software führt eine Vielzahl von Analysen durch und stellt die verschiedenen Ergebnisse grafisch dar. Sie generiert hochpräzise Annotationen, die nicht unter Verwendung herkömmlicher Annotations-Tools auf Basis von Genomsequenzen erzeugt werden könnten. Es kann eine Vielzahl neuer Genombestandteile, wie kleine nicht-kodierende RNAs in UTRs, ermitteln, welche von bisherigen Programme nicht vorhergesagt werden können. ANNOgesic ist unter einer Open-Source-Lizenz (ISCL) auf https://github.com/Sung-Huan/ANNOgesic verfügbar. Meine Forschungsarbeit beinhaltet nicht nur die Entwicklung von ANNOgesic, sondern auch dessen Anwendung um das Transkriptom des Staphylococcus aureus-Stamms HG003 zu annotieren. Dieser ist einem Derivat von S. aureus NCTC8325 - ein Stamm, Dear ein bedeutendes Modell in der Infektionsbiologie darstellt. Zum Beispiel wurde er für die Untersuchung von Antibiotikaresistenzen genutzt, da er anfällig für alle bekannten Antibiotika ist. Der Elternstamm NCTC8325 besitzt zwei Mutationen im regulatorischen Genen (rsbU und tcaR), die Veränderungen der Virulenz zur Folge haben und die in Stamm HG003 auf die Wildtypsequenz zurückmutiert wurden. Dadurch besitzt S. aureus HG003 das vollständige, ursprüngliche Regulationsnetzwerk und stellt deshalb ein besseres Modell zur Untersuchung von sowohl Virulenz als auch Antibiotikaresistenz dar. Trotz seines Modellcharakters fehlten für HG003 bisher eine vollständige Genomsequenz und deren Annotationen. Um diese Lücke zu schließen habe ich als Teil meiner Promotion mit Hilfe von ANNOgesic Annotationen für diesen Stamm, einschließlich sRNAs und ihrer Funktionen, generiert. Dafür habe ich Differential RNA-Seq-Daten von 14 verschiedenen Proben (zwei Mediumsbedingungen mit sieben Zeitpunkten) sowie RNA-Seq-Daten, die von fragmentierten Transkripten generiert wurden, analysiert. Neben S. aureus HG003 wurde ANNOgesic auf eine Vielzahl von Bakterien- und Archaeengenome angewendet und dabei wurde eine hohe Performanz demonstriert. Zusammenfassend kann gesagt werden, dass ANNOgesic ein mächtiges bioinformatisches Werkzeug für die RNA-Seq-basierte Annotationen ist und für verschiedene Spezies erfolgreich angewandt wurde. KW - RNA-Seq KW - Genome Annotation KW - small RNA KW - Genom KW - Annotation KW - Small RNA KW - Bioinformatik Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-176468 ER - TY - JOUR A1 - Dandekar, Thomas A1 - Liang, Chunguang A1 - Krüger, Beate T1 - GoSynthetic database tool to analyse natural and engineered molecular processes JF - Database N2 - An essential topic for synthetic biologists is to understand the structure and function of biological processes and involved proteins and plan experiments accordingly. Remarkable progress has been made in recent years towards this goal. However, efforts to collect and present all information on processes and functions are still cumbersome. The database tool GoSynthetic provides a new, simple and fast way to analyse biological processes applying a hierarchical database. Four different search modes are implemented. Furthermore, protein interaction data, cross-links to organism-specific databases (17 organisms including six model organisms and their interactions), COG/KOG, GO and IntAct are warehoused. The built in connection to technical and engineering terms enables a simple switching between biological concepts and concepts from engineering, electronics and synthetic biology. The current version of GoSynthetic covers more than one million processes, proteins, COGs and GOs. It is illustrated by various application examples probing process differences and designing modifications. KW - Bioinformatik Y1 - 2013 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-97023 ER - TY - THES A1 - Prada Salcedo, Juan Pablo T1 - Image Processing and other bioinformatic tools for Neurobiology T1 - Bildbearbeitung und andere bioinformatische Werkzeuge für die Neurobiologie N2 - Neurobiology is widely supported by bioinformatics. Due to the big amount of data generated from the biological side a computational approach is required. This thesis presents four different cases of bioinformatic tools applied to the service of Neurobiology. The first two tools presented belong to the field of image processing. In the first case, we make use of an algorithm based on the wavelet transformation to assess calcium activity events in cultured neurons. We designed an open source tool to assist neurobiology researchers in the analysis of calcium imaging videos. Such analysis is usually done manually which is time consuming and highly subjective. Our tool speeds up the work and offers the possibility of an unbiased detection of the calcium events. Even more important is that our algorithm not only detects the neuron spiking activity but also local spontaneous activity which is normally discarded because it is considered irrelevant. We showed that this activity is determinant in the calcium dynamics in neurons and it is involved in important functions like signal modulation and memory and learning. The second project is a segmentation task. In our case we are interested in segmenting the neuron nuclei in electron microscopy images of c.elegans. Marking these structures is necessary in order to reconstruct the connectome of the organism. C.elegans is a great study case due to the simplicity of its nervous system (only 502 neurons). This worm, despite its simplicity has taught us a lot about neuronal mechanisms. There is still a lot of information we can extract from the c.elegans, therein lies the importance of reconstructing its connectome. There is a current version of the c.elegans connectome but it was done by hand and on a single subject which leaves a big room for errors. By automatizing the segmentation of the electron microscopy images we guarantee an unbiased approach and we will be able to verify the connectome on several subjects. For the third project we moved from image processing applications to biological modeling. Because of the high complexity of even small biological systems it is necessary to analyze them with the help of computational tools. The term in silico was coined to refer to such computational models of biological systems. We designed an in silico model of the TNF (Tumor necrosis factor) ligand and its two principal receptors. This biological system is of high relevance because it is involved in the inflammation process. Inflammation is of most importance as protection mechanism but it can also lead to complicated diseases (e.g. cancer). Chronic inflammation processes can be particularly dangerous in the brain. In order to better understand the dynamics that govern the TNF system we created a model using the BioNetGen language. This is a rule based language that allows one to simulate systems where multiple agents are governed by a single rule. Using our model we characterized the TNF system and hypothesized about the relation of the ligand with each of the two receptors. Our hypotheses can be later used to define drug targets in the system or possible treatments for chronic inflammation or lack of the inflammatory response. The final project deals with the protein folding problem. In our organism proteins are folded all the time, because only in their folded conformation are proteins capable of doing their job (with some very few exceptions). This folding process presents a great challenge for science because it has been shown to be an NP problem. NP means non deterministic Polynomial time problem. This basically means that this kind of problems cannot be efficiently solved. Nevertheless, somehow the body is capable of folding a protein in just milliseconds. This phenomenon puzzles not only biologists but also mathematicians. In mathematics NP problems have been studied for a long time and it is known that given the solution to one NP problem we could solve many of them (i.e. NP-complete problems). If we manage to understand how nature solves the protein folding problem then we might be able to apply this solution to many other problems. Our research intends to contribute to this discussion. Unfortunately, not to explain how nature solves the protein folding problem, but to explain that it does not solve the problem at all. This seems contradictory since I just mentioned that the body folds proteins all the time, but our hypothesis is that the organisms have learned to solve a simplified version of the NP problem. Nature does not solve the protein folding problem in its full complexity. It simply solves a small instance of the problem. An instance which is as simple as a convex optimization problem. We formulate the protein folding problem as an optimization problem to illustrate our claim and present some toy examples to illustrate the formulation. If our hypothesis is true, it means that protein folding is a simple problem. So we just need to understand and model the conditions of the vicinity inside the cell at the moment the folding process occurs. Once we understand this starting conformation and its influence in the folding process we will be able to design treatments for amyloid diseases such as Alzheimer's and Parkinson's. In summary this thesis project contributes to the neurobiology research field from four different fronts. Two are practical contributions with immediate benefits, such as the calcium imaging video analysis tool and the TNF in silico model. The neuron nuclei segmentation is a contribution for the near future. A step towards the full annotation of the c.elegans connectome and later for the reconstruction of the connectome of other species. And finally, the protein folding project is a first impulse to change the way we conceive the protein folding process in nature. We try to point future research in a novel direction, where the amino code is not the most relevant characteristic of the process but the conditions within the cell. N2 - Neurobiologie wird durch Bioinformatik unterstützt, aufgrund der großen Datenmengen, die von biologischer Seite her anfallen, bedarf es eines rechnerischen Ansatzes, um diese Daten sinnvoll zu interpretieren. Im Rahmen der vorliegenden Dissertation werden vier Werkzeuge aus dem Bereich der Bioinformatik für die Anwendung in der Neurobiologie vorgestellt. Die ersten beiden Werkzeuge gehören zum Bereich der digitalen Bildverarbeitung. Das erste Werkzeug nutzt einen Algorithmus basierend auf der Wavelet-Transformation, um Calciumaktivität in Neuronenkulturen zu bewerten. Hierzu wurde Open-Source-Software entwickelt, die Neurobiologen bei der Analyse von Videoaufnahmen unterstützt. Diese Analyse wird herkömmlicherweise manuell vorgenommen, sodass der Prozess zeitintensiv und sehr subjektiv ist. Die entwickelte Software beschleunigt den Arbeitsprozess und ermöglicht eine unverzerrte Detektion der Ereignisse in Bezug auf Calcium. Von noch größerer Bedeutsamkeit ist die Tatsache, dass der entwickelte Algorithmus nicht nur neuronale Spiking-Aktivität detektiert, sondern auch lokale Spontanaktivität, die herkömmlicherweise als irrelevant betrachtet und daher verworfen wird. Wir konnten zeigen, dass diese Spontanaktivität hohe Relevanz für die Dynamik von Calcium in den Neuronen besitzt und wahrscheinlich an wichtigen Funktionen beteiligt ist, wie der Signalmodulation, Lernen und Gedächtnis. Beim zweiten Projekt handelt es sich um eine Segmentierungsaufgabe. Wir sind daran interessiert, die neuronalen Zellkerne in elektromikroskopischen Aufnahmen des C.elegans zu segmentieren. Die Kennzeichnung dieser Struktur ist notwendig, um das Konnektom dieses Organismus zu rekonstruieren. Als Studienobjekt eignet sich C.elegans aufgrund der Simplizität seines Nervensystems (er besteht lediglich aus 502 Neuronen). Trotz der Simplizität des Nervensystems dieses Wurms konnten wichtige Erkenntnisse im Hinblick auf neuronale Mechanismen durch die Untersuchung dieses Modellorganismus gewonnen werden. Daher ist die Bestimmung des Konnektoms bedeutsam. Es existiert bereits eine Version des Konnektoms, doch diese wurde händig für lediglich ein Subjekt rekonstruiert und ist daher möglicherweise fehlerbehaftet. Die automatisierte Segmentierung der elektronenmikroskopischen Aufnahmen ermöglicht einen weniger verzerrten Ansatz, der zudem die Verifizierung an mehreren Subjekten gestattet. Das dritte Projekt dieser Dissertation ist ein Projekt zur Modellierung und Simulation eines biologischen Systems. Aufgrund der hohen Komplexität selbst kleinster biologischer Systeme ist die computergestützte Analyse notwendig. Der Begriff in silico wurde für die computergestützte Simulation biologischer Systeme geprägt. Wir haben ein in silico Modell des TNF (Tumornekrosefaktor) Ligand und seiner zwei Hauptrezeptoren entwickelt. Dieses biologische System ist von hoher Bedeutsamkeit, da es am Entzündungsprozess beteiligt ist, der höchste Wichtigkeit als Schutzmechanismus hat, aber es kann auch komplizierte Erkrankungen auslösen (beispielsweise Krebs), falls es zu einer chronischen Entzündungsreaktion kommt. Derartige Entzündungsprozesse können besonders gefährlich im Gehirn sein. Das System muss eine schwierige Balance zwischen protektiver Funktion und möglicher Krankheitsursache behalten. Um die Dynamiken besser zu verstehen, die das TNF System leiten, haben wir ein Modell mittels der BioNetGen Sprache erstellt. Diese regelbasierte Sprache ermöglicht es ein System zu simulieren, in dem multiple Agenten geleitet werden von einer Regel. Mithilfe unseres Modells charakterisieren wir das TNF System und stellen Hypothesen über die Beziehung des Liganden mit den beiden Rezeptoren auf. Diese Hypothesen können später genutzt werden, um mögliche Ziele im System für Arzneimittel, mögliche Behandlungen für chronische Entzündungen oder das Fehlen einer Entzündungsreaktion zu bestimmen. Im abschießenden Projekt wird das Proteinfaltungsproblem behandelt. In unserem Organismus werden ständig Proteine gefaltet, denn nur im gefalteten Zustand können sie ihrer Aufgabe nachkommen (mit sehr wenigen Ausnahmen). Dieser Faltungsprozess stellt eine große Herausforderung für die Wissenschaft dar, weil gezeigt wurde, dass der Faltungsprozess ein NP Problem ist. NP steht dabei für nichtdeterministisch polynomielles Zeitproblem. Dies bedeutet im Grunde, dass es nicht effizient gelöst werden kann. Nichtsdestotrotz ist der Körper in der Lage, ein Protein in Millisekunden zu falten. Dieses Phänomen stellt nicht nur Biologen sondern auch Mathematiker vor Rätsel. In der Mathematik wurde diese Probleme schon lange studiert und es ist bekannt, dass die Kenntnis der Lösung eines NP Problems die Lösung vieler bedeuten würde (insbesondere NP-kompletter Probleme). Daher ist die Idee, dass viele Probleme gelöst werden könnten, durch das Verständnis davon, wie die Natur das Problem löst. Unsere Forschung zielt darauf ab, zu dieser Diskussion beizutragen, allerdings nicht durch die Erklärung davon, wie die Natur das Problem löst, sondern durch die Erklärung, dass die Natur das Problem nicht löst. Dies scheint zunächst widersprüchlich, da der Körper ständig Proteine faltet. Unsere Hypothese besagt jedoch, dass der Organismus gelernt hat, eine vereinfachte Version des NP Problems zu lösen. Die Natur löst das Problem nicht in seiner vollen Komplexität, sondern nur eine kleine Instanz davon. Eine Instanz, die ein konvexes Optimierungsproblem darstellt. Wir formulieren das Proteinfaltungsproblem als konvexes Optimierungsproblem und zur Illustrierung unserer Behauptung nutzen wir theoretische Beispiele. Wenn die Hypothese zutrifft, bedeutet dies, dass das Proteinfaltungsproblem ein einfaches ist und wir müssen lediglich die Ausgangskonstellation der Umgebung in der Zelle verstehen und modellieren, in dem Moment in dem die Faltung passiert. Sobald wir die Ausgangskonstellation und den Einfluss auf den Faltungsprozess verstehen, können wir Behandlungen für Amyloid-Krankheiten, wie Alzheimer-Demenz und Morbus Parkinson entwickeln. Zusammenfassend trägt die vorliegende Dissertation zu neurobiologischer Forschung durch vier Ansätze bei. Zwei sind praktische Beiträge mit sofortigem Nutzen für die Forschung, dazu zählen das Videoanalyse Tool für Calcium Aufnahmen und das TNF in silico Modell. Die neuronale Zellkernsegmentierung ist ein Beitrag für die nahe Zukunft – ein Schritt zur Vervollständigung des Konnektoms des C.elegans und langfristig zur Rekonstruktion der Konnektome anderer Spezies. Und schließlich ist das Proteinfaltungsprojekt ein erster Impuls den Proteinfaltungsprozess anders zu denken. Wir versuchen zukünftige Forschung in eine andere Richtung zu lenken, wobei nicht der Aminosäurecode das relevanteste Charakteristikum des Prozesses ist, sondern vielmehr die Bedingungen innerhalb der Zelle. KW - Bildverarbeitung KW - Neurobiologie KW - Model simulation KW - Protein folding KW - Bioinformatik KW - Image Processing KW - Simulation Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-157721 ER -