TY - THES A1 - Fasemore, Akinyemi Mandela T1 - Genomic and internet based analysis of \(Coxiella\) \(burnetii\) T1 - Genomische und Internet-basierte Analyse von \(Coxiella\) \(burnetii\) N2 - Coxiella burnetii, a Gram negative obligate intracellular bacterium, is the causative agent of Q fever. It has a world wide distribution and has been documented to be capable of causing infections in several domestic animals, livestock species, and human beings. Outbreaks of Q fever are still being observed in livestock across animal farms in Europe, and primary transmission to humans still oc- curs especially in animal handlers. Public health authorities in some countries like Germany are required by law to report human acute cases denoting the significance of the challenge posed by C. burnetii to public health. In this thesis, I have developed a platform alongside methods to address the challenges of genomic analyses of C. burnetii for typing purposes. Identification of C. burnetii isolates is an important task in the laboratory as well as in the clinics and genotyping is a reliable method to identify and characterize known and novel isolates. Therefore, I designed and implemented several methods to facilitate the genotyping analyses of C. burnetii genomes in silico via a web platform. As genotyping is a data intensive process, I also included additional features such as visualization methods and databases for interpretation and storage of obtained results. I also developed a method to profile the resistome of C. burnetii isolates using a machine learning approach. Data about antibiotic resistance in C. burnetii are scarce majorly due to its lifestyle and the difficulty of cultivation in laboratory media. Alternative methods that rely on homology identification of resistance genes are also inefficient in C. burnetii, hence, I opted for a novel approach that has been shown to be promising in other bacteria species. The applied method relied on an artificial neural network as well as amino acid composition of position specific scoring matrix profile for feature extraction. The resulting model achieved an accuracy of ≈ 0.96 on test data and the overall performance was significantly higher in comparison to existing models. Finally, I analyzed two new C. burnetii isolates obtained from an outbreak in Germany, I compared the genome to the RSA 493 reference isolate and found extensive deletions across the genome landscape. This work has provided a new digital infrastructure to analyze and character- ize C. burnetii genomes that was not in existence before and it has also made a significant contribution to the existing information about antibiotic resistance genes in C. burnetii. N2 - Coxiella burnetii, ein Gram-negatives, obligat intrazelluläres Bakterium, ist der Erreger des Q-Fiebers. Er hat eine weltweite Verbreitung und ist nachweis- lich in der Lage, Infektionen bei verschiedenen Haustieren, Nutztieren und Menschen zu verursachen. Ausbrüche von Q-Fieber werden immer noch in Tierbeständen in Europa beobachtet, und die Primärübertragung auf den Men- schen erfolgt nach wie vor allem durch Kontakt mit entsprechenden Tieren und ihren Ausscheidungen. Das öffentliche Gesundheitssystem in einigen Ländern wie Deutschland hat eine Meldepflicht für akute Fälle beim Menschen festge- legt, was die Bedeutung des Erregers bzw. seiner ausgelösten Erkrankung für die öffentliche Gesundheit verdeutlicht. In dieser Doktorarbeit habe ich eine Plattform neben weiteren Methoden entwickelt, um die Herausforderungen der Genomanalyse von C. burnetii für Genotypisierungsverfahren zu adressieren. Die Identifizierung von C. burnetii-Isolaten erfüllt eine wichtige Funktion im La- bor sowie in den Krankenhäusern, und die Genotypisierung ist eine verlässliche Methode, um bekannte und neue Isolate zu identifizieren und zu charakte- risieren. Daher habe ich mehrere Methoden konzipiert und implementiert, um die Analyse zur Genotypisierung von C. burnetii-Genomen in silico über eine Web-Plattform zu erleichtern. Da die Genotypisierung ein datenintensiver Prozess ist, habe ich ebenfalls zusätzliche Features wie Visualisierungsme- thoden und Datenbanken zur Interpretation und Speicherung der erhaltenen Ergebnisse mitaufgenommen. Ferner habe ich eine Methode zur Erstellung des Resistomprofils von C. burnetii-Isolaten unter Verwendung eines Ansat- zes des maschinellen Lernens entwickelt. Daten über Resistenzfaktoren bei C. burnetii sind rar, was hauptsächlich auf die obligat intrazelluläre Lebensweise der Coxiellen und die Schwierigkeiten bei der Kultivierung in Labormedien zurückzuführen ist. Alternative Methoden, die auf der Identifizierung der Ho- mologie von Resistenzgenen basieren, sind bei C. burnetii ebenfalls ineffizient. Aus diesem Grund entschied ich mich für einen neuen Ansatz, der sich bereits bei anderen Bakterienspezies als vielversprechend erwiesen hat. Die verwen- dete Methode basiert auf einem artifiziellen neuronalen Netzwerk sowie auf der Aminosäurezusammensetzung des positionsspezifischen Matrixprofils zur Extraktion von Features. Das daraus resultierende Modell erzielte eine Genauig- keit von ≈ 0,96 bei den Testdaten und die Gesamtleistung war signifikant höher im Vergleich zu den bereits vorhandenen Methoden. Schließlich analysierte ich zwei neue C. burnetii-Isolate, die von einem Q-Fieberausbruch in Deutschland stammten. Ich verglich das Genom mit dem RSA 493 Referenz Isolat und fand extensive Deletionen über das Genom sequenz. Mit dieser Arbeit wird eine neue digitale Infrastruktur zu Analyse von C. burnetii- Genomen bereitgestellt, die es vorher noch nicht gab. Zudem liefert diese Arbeit einen wichtigen Beitrag zu den bereits vorhandenen Informationen über Antibiotikaresistenzgene bei in C. burnetii. KW - Bioinformatics KW - Coxiella burnetii KW - Genotyping KW - Web services KW - Genomics Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-296639 ER - TY - THES A1 - Bischler, Thorsten David T1 - Data mining and software development for RNA-seq-based approaches in bacteria T1 - Data-Mining und Softwareentwicklung für RNA-seq-basierte Methoden bei Bakterien N2 - RNA sequencing (RNA-seq) has in recent years become the preferred method for gene expression analysis and whole transcriptome annotation. While initial RNA-seq experiments focused on eukaryotic messenger RNAs (mRNAs), which can be purified from the cellular ribonucleic acid (RNA) pool with relative ease, more advanced protocols had to be developed for sequencing of microbial transcriptomes. The resulting RNA-seq data revealed an unexpected complexity of bacterial transcriptomes and the requirement for specific analysis methods, which in many cases is not covered by tools developed for processing of eukaryotic data. The aim of this thesis was the development and application of specific data analysis methods for different RNA-seq-based approaches used to gain insights into transcription and gene regulatory processes in prokaryotes. The differential RNA sequencing (dRNA-seq) approach allows for transcriptional start site (TSS) annotation by differentiating between primary transcripts with a 5’-triphosphate (5’-PPP) and processed transcripts with a 5’-monophosphate (5’-P). This method was applied in combination with an automated TSS annotation tool to generate global trancriptome maps for Escherichia coli (E. coli) and Helicobacter pylori (H. pylori). In the E. coli study we conducted different downstream analyses to gain a deeper understanding of the nature and properties of transcripts in our TSS map. Here, we focused especially on putative antisense RNAs (asRNAs), an RNA class transcribed from the opposite strand of known protein-coding genes with the potential to regulate corresponding sense transcripts. Besides providing a set of putative asRNAs and experimental validation of candidates via Northern analysis, we analyzed and discussed different sources of variation in RNA-seq data. The aim of the H. pylori study was to provide a detailed description of the dRNA-seq approach and its application to a bacterial model organism. It includes information on experimental protocols and requirements for data analysis to generate a genome-wide TSS map. We show how the included TSS can be used to identify and analyze transcriptome and regulatory features and discuss challenges in terms oflibrary preparation protocols, sequencing platforms, and data analysis including manual and automated TSS annotation. The TSS maps and associated transcriptome data from both H. pylori and E. coli were made available for visualization in an easily accessible online browser. Furthermore, a modified version of dRNA-seq was used to identify transcriptome targets of the RNA pyrophosphohydrolase (RppH) in H. pylori. RppH initiates 5’-end-dependent degradation of transcripts by converting the 5’-PPP of primary transcripts to a 5’-P. I developed an analysis method, which uses data from complementary DNA (cDNA) libraries specific for transcripts carrying a 5’-PPP, 5’-P or both, to specifically identify transcripts modified by RppH. For this, the method assessed the 5’-phosphorylation state and cellular concentration of transcripts in rppH deletion in comparison to strains with the intact gene. Several of the identified potential RppH targets were further validated via half-life measurements and quantification of their 5’-phosphorylation state in wild-type and mutant cells. Our findings suggest an important role for RppH in post-transcriptional gene regulationin H. pylori and related organisms. In addition, we applied two RNA-seq -based approaches, RNA immunoprecipitation followed by sequencing (RIP-seq) and cross-linking immunoprecipitation followed by sequencing (CLIP-seq), to identify transcripts bound by Hfq and CsrA, two RNA-binding proteins (RBPs) with an important role in post-transcriptional regulation. For RIP-seq -based identification of CsrA binding regions in Campylobacter jejuni(C. jejuni), we used annotation-based analysis and, in addition, a self-developed peak calling method based on a sliding window approach. Both methods revealed flaA mRNA, encoding the major flagellin, as the main target and functional analysis of identified targets showed a significant enrichment of genes involved in flagella biosynthesis. Further experimental analysis revealed the role of flaA mRNA in post-transcriptional regulation. In comparison to RIP-seq, CLIP-seq allows mapping of RBP binding sites with a higher resolution. To identify these sites an approach called “block-based peak calling” was developed and resulting peaks were used to identify sequence and structural constraints required for interaction of Hfq and CsrA with Salmonella transcripts. Overall, the different RNA-seq-based approaches described in this thesis together with their associated analyis pipelines extended our knowledge on the transcriptional repertoire and modes of post-transcriptional regulation in bacteria. The global TSS maps, including further characterized asRNA candidates, putative RppH targets, and identified RBP interactomes will likely trigger similar global studies in the same or different organisms or will be used as a resource for closer examination of these features. N2 - RNA-Sequenzierung (RNA-seq) entwickelte sich in den letzten Jahren zur bevorzugten Methode für Genexpressionsanalysen und die Annotation ganzer Transkriptome. Nachdem sich erste RNA-seq-Experimente hauptsächlich mit eukaryotischen Boten-RNAs (mRNAs) beschäftigt hatten, da diese sich relativ einfach aus dem zellulären RNA-Gemisch aufreinigen lassen, war die Entwicklung von fortschrittlicheren Methoden nötig, um mikrobielle Transkriptome zu sequenzieren. Die sich daraus ergebenden RNA-seq-Daten enthüllten eine unerwartete Komplexität bakterieller Transkriptome und die Notwendigkeit der Anwendung spezifischer Analyseverfahren, welche von Tools zur Prozessierung eukaryotischer Daten häufig nicht zur Verfügung gestellt werden. Das Ziel dieser Doktorarbeit war die Entwicklung und Anwendung spezifischer Verfahren zur Datenanalyse für verschiedene RNA-seq-basierte Methoden, um Erkenntnisse bezüglich Transkription und genregulatorischer Vorgänge bei Prokaryoten zu erlangen. Die Differentielle-RNA-Sequenzierungsmethode (dRNA-seq) ermöglicht die Annotation von Transkriptionsstartpunkten (TSS), indem sie Primärtranskripte mit einem 5'-Triphosphat (5'-PPP) von prozessierten Transkripten mit einem 5'-Monophosphat (5'-P) unterscheidet. Diese Methode wurde in Kombination mit einem automatisierten TSS-Annotationstool zur Erstellung globaler Transkriptomkarten für Escherichia coli (E. coli) and Helicobacter pylori (H. pylori) verwendet. In der E. coli-Studie haben wir verschiedene Folgeanalysen durchgeführt, um ein tieferes Verständnis für die Natur und Eigenschaften der in unserer Transkriptomkarte enthaltenen Transkripte zu erlangen. Das Hauptaugenmerk lag dabei auf mutmaßlichen Antisense-RNAs (asRNAs). Diese stellen eine RNA-Klasse dar, welche vom entgegengesetzten Strang von bekannten proteinkodierenden Genen transkribiert wird, und die das Potenzial hat, entsprechende Sense-Transkripte zu regulieren. Wir stellen nicht nur eine Liste mutmaßlicher asRNAs zur Verfügung, von der einige Kandidaten durch Northern Blots validiert wurden, sondern diskutierten auch von uns untersuchte Gründe für auftretende Variation bei RNA-seq-Daten. Das Ziel der H. pylori-Studie war es, eine detaillierte Beschreibung der dRNA-seq-Methode und deren Anwendung auf einen bakteriellen Modellorganismus zur Verfügung zu stellen. Sie enthält Informationen bezüglich experimenteller Protokolle und für die Datenanalyse notwendige Schritte, zur Erstellung einer genomweiten TSS-Karte. Wir zeigen, wie die enthaltenen TSS verwendet werden können, um verschiedene Transkriptomelemente, einschließlich solcher mit regulatorischen Eigenschaften, zu identifizieren und zu analysieren. Zusätzlich diskutieren wir Probleme, welche bei der Erstellung von Sequenzierlibraries, der Verwendung von Sequenzierplattformen und bei der Datenanalyse, einschließlich manueller und automatisierter TSS-Annotation, auftreten können. Die TSS-Karten für H. pylori und E. coli, einschließlich der damit verbundenen Transkriptomdaten, haben wir in Form eines leicht zugänglichen Online-Browsers verfügbar gemacht. Desweiteren wurde eine modifizierte Version der dRNA-seq-Methode verwendet, um Transkripte zu identifizieren, welche von der RNA Pyrophosphohydrolase (RppH) in H. pylori gespalten werden. RppH initiiert den vom 5'-Ende abhängigen RNA-Abbau, indem sie das 5'-PPP von Primärtranskripten in ein 5'-P umwandelt. Ich habe eine Analysemethode entwickelt, welche Daten basierend auf unterschiedlichen Komplementär-DNA (cDNA)-Libraries verwendet, welche entweder spezifisch für Transkripte mit einem 5'-PPP oder einem 5'-P sind, oder beides enthalten, um spezifisch Transkripte zu indentifizieren, die durch RppH modifiziert werden. Um dies zu erreichen wurden der 5'-Phosphorylierungsstatus und die zelluläre Konzentration der Transkripte zwischen einer rppH-Deletionsmutante und Stämmen mit intaktem Gen verglichen. Weiterhin wurden mehrere der identifizierten, von RppH gespaltenen Transkripte durch Messung ihrer Halbwertszeit und Quantifizierung ihres 5'-Phosphorylierungsstatus bei Wildtyp- und mutierten Zellen validiert. Unsere Ergebnisse lassen auf eine wichtige Rolle von RppH bei der Genregulation in H. pylori und verwandten Organismen schließen. Zusätzlich haben wir zwei weitere RNA-seq-basierte Methoden namens RNA-Immunpräzipitation gefolgt von RNA-Sequenzierung (RIP-seq) und Quervernetzung und Immunpräzipitation gefolgt von RNA-Sequenzierung (CLIP-seq) verwendet, um Transkripte zu identifizieren, welche von Hfq und CsrA gebunden werden, zwei RNA-Bindeproteinen (RBPs), die eine wichtige Rolle bei posttranskriptionaler Regulation spielen. Zur RIP-seq-basierten Identifikation von CsrA-Binderegionen bei Campylobacter jejuni (C. jejuni) haben wir eine annotationsbasierte Analyse und zusätzlich eine eigens entwickelte Peak-Bestimmungsmethode verwendet. Beide Methoden haben die flaA mRNA, welche das Hauptflagellin kodiert, als stärksten Bindepartner identifiziert. Die Funktionale-Anreicherungsanalyse hat außerdem eine Anreicherung von Genen ergeben, welche für die Flagellenbiosynthese von Bedeutung sind. Im Vergleich zu RIP-seq ermöglicht CLIP-seq eine höhere Auflösung bei der Kartografierung von Bindestellen. Um diese Stellen zu identifizieren wurde eine Methode mit der Bezeichnung ``block-based peak calling'' entwickelt, und die daraus resultierenden Peaks wurden verwendet, um sequenz- und strukturabhängige Bedingungen zu bestimmen, die bei Salmonella für die Interaktion von Transkripten mit Hfq und CsrA notwendig sind. Insgesamt betrachtet haben die verschiedenen RNA-seq-basierten Methoden, welche in dieser Doktorarbeit beschrieben wurden, in Kombination mit den damit verbundenen Analysepipelines, unser Verständnis des transkriptionellen Repertoires und der Art und Weise, wie posttranskriptionelle Regulation bei Bakterien abläuft, erweitert. Die globalen TSS-Karten, einschließlich der charakterisierten asRNA-Kandidaten, die mutmaßlich von RppH gespaltenen Transkripte und die identifizierten RBP-Interaktome werden höchstwahrscheinlich zur Durchführung ähnlicher Studien bei den gleichen oder anderen Organismen führen, oder können als Grundlage für eine detailliertere Untersuchung dieser Elemente verwendet werden. KW - Bakterien KW - RNA sequencing KW - Bioinformatics KW - Bacteria KW - Transcriptome KW - Post-transcriptional regulation KW - RNA-binding proteins KW - Sequenzanalyse KW - RNS Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-166108 ER - TY - THES A1 - Horn, Hannes T1 - Analysis and interpretation of (meta-)genomic data from host-associated microorganisms T1 - Analyse und Interpretation von (meta-)genomischen Daten aus Wirt-assoziierten Mikroorganismen N2 - Host–microbe interactions are the key to understand why and how microbes inhabit specific environments. With the scientific fields of microbial genomics and metagenomics, evolving on an unprecedented scale, one is able to gain insights in these interactions on a molecular and ecological level. The goal of this PhD thesis was to make (meta–)genomic data accessible, integrate it in a comparative manner and to gain comprehensive taxonomic and functional insights into bacterial strains and communities derived from two different environments: the phyllosphere of Arabidopsis thaliana and the mesohyl interior of marine sponges. This thesis focused first on the de novo assembly of bacterial genomes. A 5–step protocol was developed, each step including a quality control. The examination of different assembly software in a comparative way identified SPAdes as most suitable. The protocol enables the user to chose the best tailored assembly. Contamination issues were solved by an initial filtering of the data and methods normally used for the binning of metagenomic datasets. This step is missed in many published assembly pipelines. The described protocol offers assemblies of high quality ready for downstream analysis. Subsequently, assemblies generated with the developed protocol were annotated and explored in terms of their function. In a first study, the genome of a phyllosphere bacterium, Williamsia sp. ARP1, was analyzed, offering many adaptions to the leaf habitat: it can deal with temperature shifts, react to oxygen species, produces mycosporins as protection against UV–light, and is able to uptake photosynthates. Further, its taxonomic position within the Actinomycetales was infered from 16S rRNA and comparative genomics showing the close relation between the genera Williamsia and Gordonia. In a second study, six sponge–derived actinomycete genomes were investigated for secondary metabolism. By use of state–of–the–art software, these strains exhibited numerous gene clusters, mostly linked to polykethide synthases, non–ribosomal peptide synthesis, terpenes, fatty acids and saccharides. Subsequent predictions on these clusters offered a great variety of possible produced compounds with antibiotic, antifungal or anti–cancer activity. These analysis highlight the potential for the synthesis of natural products and the use of genomic data as screening toolkit. In a last study, three sponge–derived and one seawater metagenomes were functionally compared. Different signatures regarding the microbial composition and GC–distribution were observed between the two environments. With a focus on bacerial defense systems, the data indicates a pronounced repertoire of sponge associated bacteria for bacterial defense systems, in particular, Clustered Regularly Interspaced Short Palindromic Repeats, restriction modification system, DNA phosphorothioation and phage growth limitation. In addition, characterizing genes for secondary metabolite cluster differed between sponge and seawater microbiomes. Moreover, a variety of Type I polyketide synthases were only found within the sponge microbiomes. With that, metagenomics are shown to be a useful tool for the screening of secondary metabolite genes. Furthermore, enriched defense systems are highlighted as feature of sponge-associated microbes and marks them as a selective trait. N2 - Mikroben–Wirt Interaktionen sind der Schlüssel, um zu verstehen “Wie?” und “Warum?” Mikroben in bestimmten Umgebungen vorkommen. Mithilfe von Genomik und Metagenomik lassen sich Einblicke auf dem molekularen sowie ökolgischen Level gewinnen. Ziel dieser Arbeit war es, diese Daten zugänglich zu machen und zu vergleichen, um Erkenntnisse auf taxonomischer und funktionaler Ebene in bakterielle Isolate und bakterielle Konsortien zu erhalten. Dabei wurden Daten aus zwei verschiedenen Umgebungen erhoben: der Phyllosphäre von Arabidopsis thaliana und aus der Mesohyl–Matrix mariner Schwämme. Das Ziel war zunächst, bakterieller Genome denovo zu assemblieren. Dazu wurde ein Protokoll, bestehend aus 5 Schritten, entwickelt. Durch Verwendung verschiedener Soft- ware zum Assemblieren konnte SPAdes als am besten geeignet für die gegebenen Daten herausgearbeitet werden. Durch anfängliches Filtern der Daten konnte erste Kontamina- tion entfernt werden. Durch das Anwenden weiterer Methoden, welche ursprünglich für metagenomische Datensätze entwickelt wurden, konnten weitere Kontaminationen erkannt und von den “echten” Daten getrennt werden. Ein Schritt, welcher in den meisten pub- lizierten Assembly–Pipelines fehlt. Das Protokoll ermöglicht das Erstellen hochqualitativer Assemblies, welche zur weiteren Analyse nicht weiter aufbereitet werden müssen. Nachfolgend wurden die generierten Assemblies annotiert. Das Genom von William- sia sp. ARP1 wurde untersucht und durch dessen Interpretation konnten viele Anpassungen an die Existenz in der Phyllosphäre gezeigt werden: Anpassung an Termperaturveränderun- gen, Produktion von Mycosporinen als Schutz vor UV–Strahlung und die Möglichkeit, von der Pflanze durch Photosynthese hergestellte Substanzen aufzunehmen. Seine taxonomische Position wurde aufgrund von 16S rRNA sowie vergleichende Genomik bestimmt. Dadurch konnte eine nahe Verwandtschaft zwischen den Gattungen Williamsia und Gordonia gezeigt werden. In einer weiteren Studie wurden sechs Actinomyceten–Genome, isoliert aus Schwämmen, hinsichtlich ihres Sekundärmetabolismus untersucht. Mihilfe moderner Software konnten in zahlreiche Gen–Cluster identifiziert werden. Zumeist zeigten diese eine Zugehörigkeit zu Polyketidsynthasen, Nichtribosomalen Peptidsynthasen, Terpenen, Fettsäuren oder Sac- chariden. Durch eine tiefere Analyse konnten die Cluster mit chemischen Verbindungen assoziiert werden, welche antibakterielle oder fungizide Eigenschaften besitzen. In der letzten Untersuchung wurden Metagenome von drei Schwämmen sowie Meerwasser auf funktioneller Ebene verglichen. Beobachtet wurden Unterschiede in deren mikrobiellen Konsortien und GC–Gehalt. Schwamm–assoziierte Bakterien zeigten ein ausgeprägtes Inventar an Verteidigungsmechanismen gegenüber deren Vertretern aus dem Meerwasser. Dies beinhaltete vor allem: Clustered Regularly Interspaced Short Palindromic Repeats, das Restriktions-Modifikationssystem, DNA Phosphorothioation, oder Gene, welche das Wachstum von Phagen hemmen können. Gene für Sekundärmetabolite waren zwischen Schwamm– und Meerwasser–Metagenomen unterschiedlich stark ausgeprägt. So konnten Typ I Polyketidsynthasen ausschließlich in den Schwamm–Metagenomen gefunden werden. Dies zeigt, dass metagenomische Daten ebenso wie genomische Daten zur Untersuchung des Sekundärmetabolismus genutzt werden können. Des Weiteren zeigt die Anhäufung an Verteidigungsmechanismen eine Anpassung von Schwamm–assoziierten Mikroben an ihre Umgebung und ist ein Hinweis auf deren mögliche selektive Eigenschaft. KW - Bakterien KW - Meeresschwämme KW - Metagenom KW - Phyllosphäre KW - Ackerschmalwand KW - Metagenomics KW - Genomics KW - Phyllosphere KW - Sponges KW - Bacteria KW - Deep sequencing KW - Arabidopsis thaliana KW - Bioinformatics Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-152035 ER - TY - THES A1 - Sharan, Malvika T1 - Bio-computational identification and characterization of RNA-binding proteins in bacteria T1 - Bioinformatische Identifikation und Charakterisierung von RNA-bindenden Proteinen in Bakterien N2 - RNA-binding proteins (RBPs) have been extensively studied in eukaryotes, where they post-transcriptionally regulate many cellular events including RNA transport, translation, and stability. Experimental techniques, such as cross-linking and co-purification followed by either mass spectrometry or RNA sequencing has enabled the identification and characterization of RBPs, their conserved RNA-binding domains (RBDs), and the regulatory roles of these proteins on a genome-wide scale. These developments in quantitative, high-resolution, and high-throughput screening techniques have greatly expanded our understanding of RBPs in human and yeast cells. In contrast, our knowledge of number and potential diversity of RBPs in bacteria is comparatively poor, in part due to the technical challenges associated with existing global screening approaches developed in eukaryotes. Genome- and proteome-wide screening approaches performed in silico may circumvent these technical issues to obtain a broad picture of the RNA interactome of bacteria and identify strong RBP candidates for more detailed experimental study. Here, I report APRICOT (“Analyzing Protein RNA Interaction by Combined Output Technique”), a computational pipeline for the sequence-based identification and characterization of candidate RNA-binding proteins encoded in the genomes of all domains of life using RBDs known from experimental studies. The pipeline identifies functional motifs in protein sequences of an input proteome using position-specific scoring matrices and hidden Markov models of all conserved domains available in the databases and then statistically score them based on a series of sequence-based features. Subsequently, APRICOT identifies putative RBPs and characterizes them according to functionally relevant structural properties. APRICOT performed better than other existing tools for the sequence-based prediction on the known RBP data sets. The applications and adaptability of the software was demonstrated on several large bacterial RBP data sets including the complete proteome of Salmonella Typhimurium strain SL1344. APRICOT reported 1068 Salmonella proteins as RBP candidates, which were subsequently categorized using the RBDs that have been reported in both eukaryotic and bacterial proteins. A set of 131 strong RBP candidates was selected for experimental confirmation and characterization of RNA-binding activity using RNA co-immunoprecipitation followed by high-throughput sequencing (RIP-Seq) experiments. Based on the relative abundance of transcripts across the RIP-Seq libraries, a catalogue of enriched genes was established for each candidate, which shows the RNA-binding potential of 90% of these proteins. Furthermore, the direct targets of few of these putative RBPs were validated by means of cross-linking and co-immunoprecipitation (CLIP) experiments. This thesis presents the computational pipeline APRICOT for the global screening of protein primary sequences for potential RBPs in bacteria using RBD information from all kingdoms of life. Furthermore, it provides the first bio-computational resource of putative RBPs in Salmonella, which could now be further studied for their biological and regulatory roles. The command line tool and its documentation are available at https://malvikasharan.github.io/APRICOT/. N2 - RNA-bindende Proteine (RBPs) wurden umfangreich in Eukaryoten erforscht, in denen sie viele Prozesse wie RNA-Transport, -Translation und -Stabilität post-transkriptionell regulieren. Experimentelle Methoden wie Cross-linking and Koimmunpräzipitation mit nachfolgedener Massenspektromentrie / RNA-Sequenzierung ermöglichten eine weitreichende Charakterisierung von RBPs, RNA-bindenden Domänen (RBDs) und deren regulatorischen Rollen in eukaryotischen Spezies wie Mensch und Hefe. Weitere Entwicklungen im Bereich der hochdurchsatzbasierten Screeningverfahren konnten das Verständnis von RBPs in Eukaryoten enorm erweitern. Im Gegensatz dazu ist das Wissen über die Anzahl und die potenzielle Vielfalt von RBPs in Bakterien dürftig. In der vorliegenden Arbeit präsentiere ich APRICOT, eine bioinformatische Pipeline zur sequenzbasierten Identifikation und Charakterisierung von Proteinen aller Domänen des Lebens, die auf RBD-Informationen aus experimentellen Studien aufbaut. Die Pipeline nutzt Position Specific Scoring Matrices und Hidden-MarkovModelle konservierter Domänen, um funktionelle Motive in Proteinsequenzen zu identifizieren und diese anhand von sequenzbasierter Eigenschaften statistisch zu bewerten. Anschließend identifiziert APRICOT mögliche RBPs und charakterisiert auf Basis ihrer biologischeren Eigenschaften. In Vergleichen mit ähnlichen Werkzeugen übertraf APRICOT andere Programme zur sequenzbasierten Vorhersage von RBPs. Die Anwendungsöglichkeiten und die Flexibilität der Software wird am Beispiel einiger großer RBP-Kollektionen, die auch das komplette Proteom von Salmonella Typhimurium SL1344 beinhalten, dargelegt. APRICOT identifiziert 1068 Proteine von Salmonella als RBP-Kandidaten, die anschließend unter Nutzung der bereits bekannten bakteriellen und eukaryotischen RBDs klassifiziert wurden. 131 der RBP-Kandidaten wurden zur Charakterisierung durch RNA co-immunoprecipitation followed by high-throughput sequencing (RIP-seq) ausgewählt. Basierend auf der relativen Menge an Transkripten in den RIP-seq-Bibliotheken wurde ein Katalog von angereicherten Genen erstellt, der auf eine potentielle RNA-bindende Funktion in 90% dieser Proteine hindeutet. Weiterhin wurden die Bindungstellen einiger dieser möglichen RBPs mit Cross-linking and Co-immunoprecipitation (CLIP) bestimmt. Diese Doktorarbeit beschreibt die bioinformatische Pipeline APRICOT, die ein globales Screening von RBPs in Bakterien anhand von Informationen bekannter RBDs ermöglicht. Zudem enthält sie eine Zusammenstellung aller potentieller RPS in Salmonella, die nun auf ihre biologsche Funktion hin untersucht werden können. Das Kommondozeilen-Programm und seine Dokumentation sind auf https://malvikasharan.github.io/APRICOT/ verfügbar. KW - Bioinformatics Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-153573 ER - TY - THES A1 - Zeeshan [geb. Majeed], Saman T1 - Implementation of Bioinformatics Methods for miRNA and Metabolic Modelling T1 - Die Umsetzung der Bioinformatik-Methoden für miRNA-und der Metabolischen Modellierung N2 - Dynamic interactions and their changes are at the forefront of current research in bioinformatics and systems biology. This thesis focusses on two particular dynamic aspects of cellular adaptation: miRNA and metabolites. miRNAs have an established role in hematopoiesis and megakaryocytopoiesis, and platelet miRNAs have potential as tools for understanding basic mechanisms of platelet function. The thesis highlights the possible role of miRNAs in regulating protein translation in platelet lifespan with relevance to platelet apoptosis and identifying involved pathways and potential key regulatory molecules. Furthermore, corresponding miRNA/target mRNAs in murine platelets are identified. Moreover, key miRNAs involved in aortic aneurysm are predicted by similar techniques. The clinical relevance of miRNAs as biomarkers, targets, resulting later translational therapeutics, and tissue specific restrictors of genes expression in cardiovascular diseases is also discussed. In a second part of thesis we highlight the importance of scientific software solution development in metabolic modelling and how it can be helpful in bioinformatics tool development along with software feature analysis such as performed on metabolic flux analysis applications. We proposed the “Butterfly” approach to implement efficiently scientific software programming. Using this approach, software applications were developed for quantitative Metabolic Flux Analysis and efficient Mass Isotopomer Distribution Analysis (MIDA) in metabolic modelling as well as for data management. “LS-MIDA” allows easy and efficient MIDA analysis and, with a more powerful algorithm and database, the software “Isotopo” allows efficient analysis of metabolic flows, for instance in pathogenic bacteria (Salmonella, Listeria). All three approaches have been published (see Appendices). N2 - Dynamische Wechselwirkungen und deren Veränderungen sind wichtige Themen der aktuellen Forschung in Bioinformatik und Systembiologie. Diese Promotionsarbeit konzentriert sich auf zwei besonders dynamische Aspekte der zellulären Anpassung: miRNA und Metabolite. miRNAs spielen eine wichtige Rolle in der Hämatopoese und Megakaryozytopoese, und die Thrombozyten miRNAs helfen uns, grundlegende Mechanismen der Thrombozytenfunktion besser zu verstehen. Die Arbeit analysiert die potentielle Rolle von miRNAs bei der Proteintranslation, der Thrombozytenlebensdauer sowie der Apoptose von Thrombozyten und ermöglichte die Identifizierung von beteiligten Signalwegen und möglicher regulatorischer Schlüsselmoleküle. Darüber hinaus wurden entsprechende miRNA / Ziel-mRNAs in murinen Thrombozyten systematisch gesammelt. Zudem wurden wichtige miRNAs, die am Aortenaneurysma beteiligt sein könnten, durch ähnliche Techniken vorhergesagt. Die klinische Relevanz von miRNAs als Biomarker, und resultierende potentielle Therapeutika, etwa über eine gewebsspezifische Beeinflussung der Genexpression bei Herz-Kreislauf Erkrankungen wird ebenfalls diskutiert. In einem zweiten Teil der Dissertation wird die Bedeutung der Entwicklung wissenschaftlicher Softwarelösungen für die Stoffwechselmodellierung aufgezeigt, mit einer Software-Feature-Analyse wurden verschiedene Softwarelösungen in der Bioinformatik verglichen. Wir vorgeschlagen dann den "Butterfly"-Ansatz, um effiziente wissenschaftliche Software-Programmierung zu implementieren. Mit diesem Ansatz wurden für die quantitative Stoffflussanalyse mit Isotopomeren effiziente Software-Anwendungen und ihre Datenverwaltung entwickelt: LS-MIDA ermöglicht eine einfache und effiziente Analyse, die Software "Isotopo" ermöglicht mit einem leistungsfähigeren Algorithmus und einer Datenbank, eine noch effizientere Analyse von Stoffwechselflüssen, zum Beispiel in pathogenen Bakterien (Salmonellen, Listerien). Alle drei Ansätze wurden bereits veröffentlicht (siehe Appendix). KW - miRNS KW - Bioinformatics KW - miRNA KW - Metabolic Modelling KW - Spectral Data Analysis KW - Butterfly KW - Thrombozyt KW - Bioinformatik KW - Stoffwechsel KW - Modellierung KW - Metabolischen Modellierung Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-102900 ER - TY - THES A1 - Cecil, Alexander [geb. Schmid] T1 - Metabolische Netzwerkanalysen für den Weg von xenobiotischen zu verträglichen antibiotischen Substanzen T1 - Metabolic network analysis for the path from xenobiotic to compliant antibiotic substances N2 - Durch das Auftreten neuer Stämme resistenter Krankheitserreger ist die Suche nach neuartigen Wirkstoffen gegen diese, sich ständig weiter ausbreitende Bedrohung, dringend notwendig. Der interdisziplinäre Sonderforschungsbereich 630 der Universität Würzburg stellt sich dieser Aufgabe, indem hier neuartige Xenobiotika synthetisiert und auf ihre Wirksamkeit getestet werden. Die hier vorgelegte Dissertation fügt sich hierbei nahtlos in die verschiedenen Fachbereiche des SFB630 ein: Sie stellt eine Schnittstelle zwischen Synthese und Analyse der Effekte der im Rahmen des SFB630 synthetisierten Isochinolinalkaloid-Derivaten. Mit den hier angewandten bioinformatischen Methoden wurden zunächst die wichtigsten Stoffwechselwege von S. epidermidis R62A, S. aureus USA300 und menschlicher Zellen in sogenannten metabolischen Netzwerkmodellen nachgestellt. Basierend auf diesen Modellen konnten Enzymaktivitäten für verschiedene Szenarien an zugesetzten Xenobiotika berechnet werden. Die hierfür benötigten Daten wurden direkt aus Genexpressionsanalysen gewonnen. Die Validierung dieser Methode erfolgte durch Metabolommessungen. Hierfür wurde S. aureus USA300 mit verschiedenen Konzentrationen von IQ-143 behandelt und gemäß dem in dieser Dissertation vorgelegten Ernteprotokoll aufgearbeitet. Die Ergebnisse hieraus lassen darauf schließen, dass IQ-143 starke Effekte auf den Komplex 1 der Atmungskette ausübt – diese Resultate decken sich mit denen der metabolischen Netzwerkanalyse. Für den Wirkstoff IQ-238 ergaben sich trotz der strukturellen Ähnlichkeiten zu IQ-143 deutlich verschiedene Wirkeffekte: Dieser Stoff verursacht einen direkten Abfall der Enzymaktivitäten in der Glykolyse. Dadurch konnte eine unspezifische Toxizität dieser Stoffe basierend auf ihrer chemischen Struktur ausgeschlossen werden. Weiterhin konnten die bereits für IQ-143 und IQ-238 auf Bakterien angewandten Methoden erfolgreich zur Modellierung der Effekte von Methylenblau auf verschiedene resistente Stämme von P. falciparum 3D7 angewandt werden. Dadurch konnte gezeigt werden, dass Methylenblau in einer Kombination mit anderen Präparaten gegen diesen Parasiten zum einen die Wirkung des Primärpräparates verstärkt, zum anderen aber auch in gewissem Maße vorhandene Resistenzen gegen das Primärpräparat zu verringern vermag. Somit konnte durch die vorgelegte Arbeit eine Pipeline zur Identifizierung der metabolischen Effekte verschiedener Wirkstoffe auf unterschiedliche Krankheitserreger erstellt werden. Diese Pipeline kann jederzeit auf andere Organismen ausgeweitet werden und stellt somit einen wichtigen Ansatz um Netzwerkeffekte verschiedener, potentieller Medikamente aufzuklären. N2 - With the emergence of new strains of resistant pathogens, the search for new compounds against this spreading threat is of utmost importance. The interdisciplinary special research field SFB630 of the University of Würzburg is ready to tackle this task by synthesizing and analysing the effects of xenobiotics. The presented dissertation is seamlessly integrated into the diverse range of special fields of the SFB630: it provides a gateway between synthesis and analysis of the effects of the newly synthesized isoquinoline alkaloid derivatives. The presented bioinformatic methods were used to build a so called metabolic network model of the most important pathways of S. epidermidis RP62A, S. aureus USA300 and human cells. Based on these models it was possible to calculate the enzyme activities for different scenarios of added xenobiotics. The data needed for these calculations were derived directly from gene expression analysis. Validation of this method was done by metabolomic measurements. In order to accomplish this, a strain of S. aureus USA300 was subjected to different concentrations of IQ-143 and processed according to the workflow also published in this dissertation. The results suggest that IQ-143 has very strong effects on the complex 1 of the oxidative phosphorylation – these results are consistent with the results obtained by the metabolic network analysis. Although IQ-238 is structurally a close relative to IQ-143, the effects of this compound are very different: it leads to a drop of the enzyme activities in the glycolysis. Therefore an unspecific toxicity of those compounds based on their chemical structure dould be ruled out. The methods used to model the effects of IQ-143 and IQ-238 on bacteria were furthermore successfully transferred to model the effects of methylene blue on several resistant strains of P. falciparum 3D7. It was shown that a combination of methylene blue and other malaria medications either enhances the effects of the primary medication, or – in the case of a resistant strain – methylene blue was able to mitigate the resistances against the primary medication. The presented dissertation was thus successfully able to build a pipeline to identify the metabolic effects of different compounds on various germs. This pipeline can be expanded to other organisms at any time and therefore yields an important approach to identify network effects of various potential drugs. KW - Stoffwechsel KW - Bioinformatik KW - Mathematisches Modell KW - Enzymaktivität KW - Xenobiotikum KW - Netzwerkanalyse KW - Bioinformatik KW - Metabolische Stoffwechselmodellierung KW - Metabolomik KW - Metabonomik KW - Network analysis KW - Bioinformatics KW - metabolic pathway modeling KW - metabolomics KW - metabonomics Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-71866 ER - TY - THES A1 - Philippi, Nicole T1 - Modellierung von Signalwegen in verschiedenen biologischen Systemen T1 - Modeling of signaling pathways in different biological systems N2 - Die Apoptose der Leberzellen ist abhängig von externen Signalen wie beispielsweise Komponenten der Extrazellulären Matrix sowie anderen Zell-Zell-Kontakten, welche von einer Vielfalt und Vielzahl an Knoten verarbeitet werden. Einige von ihnen wurden im Rahmen dieser Arbeit auf ihre Systemeffekte hin unter- sucht. Trotz verschiedener äußerer Einflüsse und natürlicher Selektion ist das System daraufhin optimiert, eine kleine Anzahl verschiedener und klar voneinander unterscheidbarer Systemzustände anzunehmen. Die verschiedenartigen Einflüsse und Crosstalk-Mechanismen dienen der Optimierung der vorhandenen Systemzustände. Das in dieser Arbeit vorgestellte Modell zeigt zwei apoptotische sowie zwei nicht-apoptotische stabile Systemzustände, wobei der Grad der Aktivierung eines Knotens bis zu dem Moment stark variieren kann, in welchem der absolute Systemzustand selbst verändert wird (Philippi et al., BMC Systems Biology,2009) [1]. Dieses Modell stellt zwar eine Vereinfachung des gesamten zellulären Netzwerkes und seiner verschiedenen Zustände dar, ist aber trotz allem in der Lage, unabhängig von detaillierten kinetischen Daten und Parametern der einzelnen Knoten zu agieren. Gleichwohl erlaubt das Modell mit guter qualitativer Übereinstimmung die Apoptose als Folge einer Stimulation mit FasL zu modellieren. Weiterhin umfasst das Modell sowohl Crosstalk-Möglichkeiten des Collagen-Integrin-Signalwegs, ebenso berücksichtigt es die Auswirkungen der genetischen Deletion von Bid sowie die Konsequenzen einer viralen Infektion. In einem zweiten Teil werden andere Anwendungsmöglichkeiten dargestellt. Hormonale Signale in Pflanzen, Virusinfektionen und intrazelluläre Kommunikation werden semi-quantitativ modelliert. Auch hier zeigte sich eine gute Ubereinstimmung der Modelle mit den experimentellen Daten. N2 - Apoptosis of liver cells is dependent on external signals such as components of the extracellular matrix and cell-cell-contacts, which are processed by a variety of numerous nodes of which several are examined here for their system effects. Despite different input interferences and presumably also due to natural selecti- on, the system nevertheless appears to be optimized to adopt a small number of clear and distinguishable states, and the various inputs and crosstalk mechanisms only optimize the best choice between them. For the model described within this work, two nonapoptotic and two apoptotic states are found, although the degree of activation at a node can differ widely until the absolute system state is altered (Philippi et al., BMC Systems Biology, 2009) [1]. The model is still a simplification of the complete cellular network and its different states, and operates independently of detailed kinetic data and parameters for individual nodes. Nevertheless, it allows modeling the readout of apoptosis after FasL stimulation with qualitative agreement and includes crosstalks from collagen/integrin signa- ling, the effect of genetic deletion of Bid and the consequences of viral infection. The second part of this work deals with other applications using this method. Semi-quantitative models are used for hormonal signaling in plants, viral infec- tions and intra-cellular communication. The simulated results fit to the experi- mental data provided. KW - Systembiologie KW - Modellierung KW - Bioinformatik KW - Apoptose KW - Systems Biology KW - Modeling KW - Bioinformatics KW - Apoptosis Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-57690 ER - TY - THES A1 - Blenk, Steffen T1 - Bioinformatical analysis of B-cell lymphomas T1 - Bioinformatische Analyse von B-Zell Lymphomen N2 - Background: The frequency of the most observed cancer, Non Hodgkin Lymphoma (NHL), is further rising. Diffuse large B-cell lymphoma (DLBCL) is the most common of the NHLs. There are two subgroups of DLBCL with different gene expression patterns: ABC (“Activated B-like DLBCL”) and GCB (“Germinal Center B-like DLBCL”). Without therapy the patients often die within a few months, the ABC type exhibits the more aggressive behaviour. A further B-cell lymphoma is the Mantle cell lymphoma (MCL). It is rare and shows very poor prognosis. There is no cure yet. Methods: In this project these B-cell lymphomas were examined with methods from bioinformatics, to find new characteristics or undiscovered events on the molecular level. This would improve understanding and therapy of lymphomas. For this purpose we used survival, gene expression and comparative genomic hybridization (CGH) data. In some clinical studies, you get large data sets, from which one can reveal yet unknown trends. Results (MCL): The published proliferation signature correlates directly with survival. Exploratory analyses of gene expression and CGH data of MCL samples (n=71) revealed a valid grouping according to the median of the proliferation signature values. The second axis of correspondence analysis distinguishes between good and bad prognosis. Statistical testing (moderate t-test, Wilcoxon rank-sum test) showed differences in the cell cycle and delivered a network of kinases, which are responsible for the difference between good and bad prognosis. A set of seven genes (CENPE, CDC20, HPRT1, CDC2, BIRC5, ASPM, IGF2BP3) predicted, similarly well, survival patterns as proliferation signature with 20 genes. Furthermore, some bands could be associated with prognosis in the explorative analysis (chromosome 9: 9p24, 9p23, 9p22, 9p21, 9q33 and 9q34). Results (DLBCL): New normalization of gene expression data of DLBCL patients revealed better separation of risk groups by the 2002 published signature based predictor. We could achieve, similarly well, a separation with six genes. Exploratory analysis of gene expression data could confirm the subgroups ABC and GCB. We recognized a clear difference in early and late cell cycle stages of cell cycle genes, which can separate ABC and GCB. Classical lymphoma and best separating genes form a network, which can classify and explain the ABC and GCB groups. Together with gene sets which identify ABC and GCB we get a network, which can classify and explain the ABC and GCB groups (ASB13, BCL2, BCL6, BCL7A, CCND2, COL3A1, CTGF, FN1, FOXP1, IGHM, IRF4, LMO2, LRMP, MAPK10, MME, MYBL1, NEIL1 and SH3BP5; Altogether these findings are useful for diagnosis, prognosis and therapy (cytostatic drugs). N2 - Hintergrund: Die Häufigkeit von Non-Hodgkin-Lymphomen (NHL), den am meisten beobachteten Krebserkrankungen, steigt weiter an. Von den aggressiven Non-Hodgkin-Lymphomen (NHL) macht das “großzellige, diffuse B-Zell-Lymphom” (DLBCL) den größten Anteil aus. Durch Genexpressionsmuster wurden zwei Subtypen definiert: ACB (“Activated B-like DLBCL”) und GCB (“Germinal Center B-like DLBCL”). Die Patienten der Gruppe ABC sterben ohne Therapie oft innerhalb weniger Monate, weil der ABC Typ einen aggressiveren Krankheitsverlauf aufweist. Ein weiteres, von einer malignen Entartung der B-Lymphozyten ausgehendes Lymphom, ist das “Mantelzell Lymphom” (MCL). Es tritt selten auf und ist ebenfalls mit einer schlechten Prognose verbunden. Eine vollständige Heilung nach der Therapie ist sehr selten. Methoden: In diesem Projekt wurden diese B-zell Lymphome mit bioinformatischen Methoden untersucht, um auf molekularer Ebene neue Eigenschaften oder bisher unentdeckte Zusammenhänge zu finden. Das würde das Verständnis und damit auch die Therapie voranbringen. Dafür standen uns Überlebens-, Genexpressions- und chromosomale Aberrationsdaten zur Verfügung. Sie sind die bevorzugte Wahl der Mittel, um genetische Veränderungen in Tumorzellen zu bestimmen. Hierbei fallen oft große Datenmengen an, aus welchen man mit bioinformatischen Methoden vorher unerkannte Trends und Hinweise identifizieren kann. Ergebnisse (MCL): Explorative Analysen sowohl der Genexpressions- (zweite Hauptachse der Korrespondenz Analyse) als auch der chromosomalen Aberrationsdaten des Mantelzell-Lymphom zeigten uns hierbei, daß es trotz der linearen Korrelation zwischen der veröffentlichten Proliferationssignatur und der Überlebenszeit sinnvoll ist, in den Patienten (n=71) zwei Ausprägungen zu betrachten: Patienten mit schlechter und mit guter Prognose. Statistische Tests (moderate t-test, Wilcoxon rank-sum test) dieser beiden Typen zeigten Unterschiede im Zellzyklus und ein Netzwerk von Kinasen auf, welche für den Unterschied zwischen guter und schlechter Prognose verantwortlich sind. Sieben Gene (CENPE, CDC20, HPRT1, CDC2, BIRC5, ASPM, IGF2BP3) konnten gefunden werden, die eine ähnliche gute Prognose für Überlebenszeiten ermöglichen, wie eine früher veröffentlichte Proliferationssignatur mit 20 Genen. Außerdem konnten chromosomale Banden durch eine explorative Analyse mit der Prognose assoziiert werden (Chromosom 9: 9p24, 9p23, 9p22, 9p21, 9q33 and 9q34). Ergebnisse (DLBCL): Durch geeignete Normalisierung der Genexpressionsdaten von 248 DLBCL-Patienten trennte der Signatur basierte Predictor die Risikogruppen nun besser auf. Eine ähnlich gute Auftrennung konnte von uns sogar mit sechs Genen erreicht werden. Die explorative Analyse der Genexpressionsdaten konnte die Subtypen ABC und GCB als valide Gruppen bestätigen. In den Genen, die ABC und GCB unterscheiden, ergab sich eine Häufung in späten und frühen Zellzyklusstadien. Klassische Lymphommarker, neu aufgefundene spezielle Gene und Zellzyklusgene bilden ein Netzwerk, das die ABC und GCB Gruppen klassifizieren und Unterschiede in deren Regulation erklären kann (ASB13, BCL2, BCL6, BCL7A, CCND2, COL3A1, CTGF, FN1, FOXP1, IGHM, IRF4, LMO2, LRMP, MAPK10, MME, MYBL1, NEIL1 and SH3BP5. Dies ist auch für die Diagnose, Prognose und Therapie (Zytostatika) interessant. KW - Bioinformatik KW - Genexpression KW - Auswertung KW - B-Zell-Lymphom KW - Diffuses großzelliges B-Zell-Lymphom KW - Mantelzell-Lymphom KW - Bioinformatics KW - gene expression KW - B-cell lymphoma KW - Diffuse large B-cell lymphoma (DLBCL) KW - Mantle cell lymphoma (MCL) Y1 - 2007 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-27421 ER - TY - THES A1 - Pils, Birgit T1 - Insights into the evolution of protein domains give rise to improvements of function prediction T1 - Untersuchung der Evolution von Proteindomänen führt zu Neuerungen in ihrer Funktionsvorhersage N2 - The growing number of uncharacterised sequences in public databases has turned the prediction of protein function into a challenging research field. Traditional annotation methods are often error-prone due to the small subset of proteins with experimentally verified function. Goal of this thesis was to analyse the function and evolution of protein domains in order to understand molecular processes in the cell. The focus was on signalling domains of little understood function, as well as on functional sites of protein domains in general. Glucosaminidases (GlcNAcases) represent key enzymes in signal transduction pathways. Together with glucosamine transferases, they serve as molecular switches, similar to kinases and phosphatases. Little was known about the molecular function and structure of the GlcNAcases. In this thesis, the GlcNAcases were identified as remote homologues of N-acetyltransferases. By comparing the homologous sequences, I was able to predict functional sites of the GlcNAcase family and to identify the GlcNAcases as the first family member of the acetyltransferase superfamily with a distinct catalytic mechanism, which is not involved in the transfer of acetyl groups. In a similar approach, the sensor domain of a plant hormone receptor was studied. I was able to predict putative ligand-binding sites by comparing evolutionary constraints in functionally diverged subfamilies. Most of the putative ligand-binding sites have been experimentally confirmed in the meantime. Due to the importance of enzymes involved in cellular signalling, it seems impossible to find substitutions of catalytic amino acids that turn them catalytically inactive. Nevertheless, by scanning catalytic positions of the protein tyrosine phosphatase families, I found many inactive domains among single domain and tandem domain phosphatases in metazoan proteomes. In addition, I found that inactive phosphatases are conserved throughout evolution, which led to the question about the function of these catalytically inactive phosphatase domains. An analysis of evolutionary site rates of amino acid substitutions revealed a cluster of conserved residues in the apparently redundant domain of tandem phosphatases. This putative regulatory center might be responsible for the experimentally verified dimerization of the active and inactive domain in order to control the catalytic activity of the active phosphatase domain. Moreover, I detected a subgroup of inactive phosphatases, which presumably functions in substrate recognition, based on different evolutionary site rates within the phosphatase family. The characterization of these new regulatory modules in the phosphatase family raised the question whether inactivation of enzymes is a more general evolutionary mechanism to enlarge signalling pathways and whether inactive domains are also found in other enzyme families. A large-scale analysis of substitutions at catalytic positions of enzymatic domains was performed in this work. I identified many domains with inactivating substitutions in various enzyme families. Signalling domains harbour a particular high occurrence of catalytically inactive domains indicating that these domains have evolved to modulate existing regulatory pathways. Furthermore, it was shown that inactivation of enzymes by single substitutions happened multiple times independently in evolution. The surprising variability of amino acids at catalytic positions was decisive for a subsequent analysis of the diversity of functional sites in general. Using functional residues extracted from structural complexes I could show that functional sites of protein domains do not only vary in their type of amino acid but also in their structural location within the domain. In the process of evolution, protein domains have arisen from duplication events and subsequently adapted to new binding partners and developed new functions, which is reflected in the high variability of functional sites. However, great differences exist between domain families. The analysis demonstrated that functional sites of nuclear domains are more conserved than functional sites of extracellular domains. Furthermore, the type of ligand influences the degree of conservation, for example ion binding sites are more conserved than peptide binding sites. The work presented in this thesis has led to the detection of functional sites in various protein domains involved in signalling pathways and it has resulted in insights into the molecular function of those domains. In addition, properties of functional sites of protein domains were revealed. This knowledge can be used in the future to improve the prediction of protein function and to identify functional sites of proteins. N2 - Durch den rasanten Anstieg unbekannter Proteinsequenzen in öffentlichen Datenbanken ist die Vorhersage der Proteinfunktion zu einem herausfordernden Forschungsgebiet geworden. Herkömmliche Annotationsmethoden sind häufig fehlerhaft, da nur einem kleinen Teil der Proteine experimentell eine Funktion zugewiesen werden konnte. Ziel der hier vorliegenden Arbeit war es, die Funktion und Evolution von Proteindomänen in Hinblick auf die molekularen Vorgänge innerhalb der Zelle zu untersuchen. Der Schwerpunkt lag auf Signaldomänen mit unbekannter Funktion und auf funktionell wichtigen Positionen in Domänen. Glucosaminidasen (GlcNAcasen) spielen eine wichtige Rolle in Signaltransduktionswegen. Zusammen mit den Glucosamintransferasen dienen sie als molekulare Schalter, ähnlich den Kinasen und Phosphatasen, jedoch war sehr wenig über ihre molekulare Funktion, sowie über ihre Struktur bekannt. In dieser Studie wurde die entfernte Verwandtschaft der GlcNAcasen zu den Acetyltransferasen gezeigt. Durch den Vergleich von homologen Sequenzen konnte ich funktionelle Positionen vorhersagen und die GLcNAcasen als erstes Mitglied der Acetyltransferasen-Superfamilie mit einem neuen katalytischen Mechanismus identifizieren, der nicht den Transfer von Acetylgruppen vermittelt. In einem ähnlichen Ansatz wurde die Sensordomäne eines Hormonrezeptors aus Pflanzen untersucht. Dabei konnte ich durch den Vergleich von evolutiven Zwängen in funktionell unterschiedlichen Subfamilien Liganden-bindende Positionen bestimmen. Die meisten dieser Vorhersagen wurden inzwischen experimentell bestätigt. Aufgrund der entscheidenden Bedeutung von enzymatischen Domänen in Signaltransduktionsprozessen erscheint es unmöglich, Substitutionen von katalytischen Aminosäuren zu finden, die die Domäne inaktivieren würden. Dennoch habe ich in einer Analyse der katalytischen Positionen in der Proteintyrosinphosphatase-Familie viele inaktive Domänen in Einzel- und Tandem-Domänen-Phosphatasen in den Proteomen von Metazoa gefunden. Ich habe zusätzlich beobachtet, dass die inaktiven Domänen in der Evolution konserviert sind, was die Frage aufwirft, welche Funktion diese katalytisch inaktiven Domänen haben. Eine Analyse der Evolutionsraten von Aminosäuresubstitutionen identifizierte eine Ansammlung von konservierten Positionen in der scheinbar überflüssigen inaktiven Domäne von Tandemphosphatasen. Dieser möglicherweise regulatorische Bereich könnte für die Dimerisierung der aktiven und inaktiven Domäne verantwortlich sein, welche experimentell nachgewiesen wurde, sowie für die Regulation der katalytischen Aktivität der Phosphatasedomäne. Außerdem habe ich durch die unterschiedlichen Evolutionsraten eine Untergruppe der inaktiven Phosphatasen entdeckt, die wahrscheinlich an der Substraterkennung beteiligt ist. Die Charakterisierung dieser neuen regulatorischen Module in der Phosphatase- Familie führte zu der Frage, ob die Inaktivierung von Enzymen ein allgemeiner Mechanismus in der Evolution ist, um Signaltransduktionswege zu erweitern, und ob es auch in anderen Enzymfamilien inaktive Domänen gibt. Dazu wurde eine umfassende Analyse durchgeführt, um Substitutionen an katalytischen Positionen in enzymatischen Domänen zu untersuchen. Ich habe in vielen Domänen aus unterschiedlichen Enzymfamilien inaktivierende Substitutionen gefunden. Einen besonders hohen Anteil an katalytisch inaktiven Domänen gibt es in Signaldomänen, was zeigt, daß diese Domänen entstanden sind, um existierende regulatorische Netze zu modifizieren. Es konnte ferner gezeigt werden, daß die Inaktivierung von Enzymen durch einzelne Subsitutionen mehrmals unabhängig voneinander in der Evolution stattgefunden hat. Die Variabilität von Aminosäuren an katalytischen Positionen war ausschlaggebend für eine anschließende, allgemeinere Analyse von funktionellen Positionen. Mit Hilfe von funktionellen Positionen, die aus strukturellen Komplexen extrahiert wurden, konnte ich zeigen, dass funktionelle Positionen nicht nur in der Aminosäure, sondern auch in ihrer Lokalisation innerhalb der Struktur variieren. Im Laufe der Evolution haben sich Domänen aus Duplikationsprozessen gebildet, sich neuen Bindungspartnern angepasst und neue Funktionen entwickelt, was sich nun in der hohen Variabilität ihrer funktionellen Positionen widerspiegelt. Dennoch gibt es große Unterschiede zwischen Domänenfamilien. Die Analyse hat gezeigt, dass funktionelle Positionen von nuklearen Domänen viel stärker konserviert sind, als jene von extrazellulären Domänen. Die hier vorgestellte Studie beschreibt funktionelle Positionen in verschiedenen an Signaltransduktionswegen beteiligten Proteindomänen und liefert Einblicke in ihre molekulare Funktion. Außerdem wurden Eigenschaften von funktionell wichtigen Positionen aufgezeigt. Diese Erkenntnisse können in Zukunft zur Optimierung der Vorhersage von Proteinfunktionen und zur Identifikation von funktionellen Positionen genutzt werden. KW - Domäne KW - Funktion KW - Bioinformatik KW - Protein KW - Domäne KW - Funktionelle Positionen KW - Bioinformatik KW - Evolution KW - Protein KW - Domain KW - Functional Sites KW - Bioinformatics KW - Evolution Y1 - 2005 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-16805 ER - TY - THES A1 - Fadl El Mola, Faisal Mohamed T1 - Bioinformatic and molecular approaches for the analysis of the retinal pigment epithelium (RPE) transcriptome N2 - There is substantial interest in the identification of genes underlying susceptibility to complex human diseases because of the potential utility of such genes in disease prediction and therapy. The complex age-related macular degeneration (AMD) is a prevalent cause of legal blindness in industrialized countries and predominantly affects the elderly population over 75 years of age. Although vision loss in AMD results from photoreceptor cell death in the central retina, the initial pathogenesis likely involves processes in the retinal pigment epithelium (RPE) (Liang and Godley, 2003). The goal of the current study was to identify and characterize genes specifically or abundantly expressed in the RPE in order to determine more comprehensively the transcriptome of the RPE. In addition, our aim was to assess the role of these genes in AMD pathogenesis. Towards this end, a bovine cDNA library enriched for RPE transcripts was constructed in-house using a PCR-based suppression subtractive hybridization (SSH) technique (Diatchenko et al., 1996, 1999), which normalizes for sequence abundance and achieves high enrichment for differentially expressed genes. CAP3 (Huang and Madan, 1999) was used to assemble the high quality sequences of all the 2379 ESTs into clusters or singletons. 1.2% of the 2379 RPE-ESTs contains vector sequences and was excluded from further analysis. 5% of the RPE-ESTs showed homology to multipe chromosomes and were not included in further assembly process. The rest of the ESTs (2245) were assembled into 175 contigs and 509 singletons, which revealed approximately 684 unique genes in the dataset. Out of the 684, 343 bovine RPE transcripts did not align to their human orthologues. A large fraction of clones were shown to include a considerable 3´untranslated regions of the gene that are not conserved between bovine and human. It is the coding regions that can be conserved between bovine and human and not the 3’ UTR (Sharma et al., 2002). Therefore, more sequencing from the cDNA library with reclustering of those 343 ESTs together with continuous blasting might reveal their human orthologoues. To handle the large volume of data that the RPE cDNA library project has generated a highly efficient and user-friendly RDBMS was designed. Using RDBMS data storage can be managed efficiently and flexibly. The RDBMS allows displaying the results in query-based form and report format with additional annotations, links and search functions. Out of the 341 known and predicted genes identified in this study, 2 were further analyzed. The RPE or/and retina specificity of these two clones were further confirmed by RT-PCR analysis in adult human tissues. Construction of a single nucleotide polymphism (SNP) map was initiated as a first step in future case/control association studies. SNP genotyping was carried out for one of these two clones (RPE01-D2, now known as RDH12). 12 SNPs were identified from direct sequencing of the 23.4-kb region, of which 5 are of high frequency. In a next step, comparison of allele frequencies between AMD patients and healthy controls is required. Completion of the expression analysis for other predicted genes identified during this study is in progress using real time RT-PCR and will provide additional candidate genes for further analyses. This study is expected to contribute to our understanding of the genetic basis of RPE function and to clarify the role of the RPE-expressed genes in the predisposition to AMD. It may also help reveal the mechanisms and pathways that are involved in the development of AMD or other retinal dystrophies. N2 - Es besteht ein grosses medizinisches Interesse an der Identifizierung von Genen, welche an der Entstehung komplexer, häufiger Krankheiten des Menschen beteiligt sind. Eine solche Krankheit ist die alters-korrelierte Makuladegeneration (AMD). Die AMD ist eine der häufigsten Ursachen für den Verlust der Sehfähigkeit im Alter von über 75 Jahren. Obwohl die Erblindung bei der AMD letztlich durch das Absterben von Photorezeptor-Zellen in der zentralen Retina bedingt wird, gibt es genügend Hinweise dafür, dass die Pathogenese der AMD ihren Ausgang vom retinalen Pigmentepithel (RPE) nimmt (Liang and Godley, 2003). Ziel dieser Arbeit war die Identifizierung und Charakterisierung von RPE-spezifischen Genen als Beitrag zur umfassenden Charakterisierung des RPE-Transkriptoms. Darüberhinaus war es Ziel der Arbeit, die mögliche Rolle der RPE-spezifischen Gene bei der Entstehung der AMD zu explorieren. Ausgangspunkt der Arbeit war eine RPE-spezifische, bovine cDNA Bibliothek, welche in der Arbeitsgruppe auf der Grundlage der SSH-Technik (Diatchenko et al, 1996, 1999) hergestellt worden war. Die SSH-Technik gestattet die Anreicherung von differentiell exprimierten Genen bei gleichzeitiger Normalisierung redundanter Sequenzen. Mit Hilfe des Software-Programms CAP3 (Huang and Madan, 1999) wurden insgesamt 2379 ESTs gruppiert und geordnet. 1,2% der 2379 RPE-ESTs enthielten Vektor Sequenzen und wurden daher von der weiteren Analyse ausgeschlossen. 5% der RPE-ESTs wiesen Homologien zu multiplen Chromosomen auf und wurden daher ebenfalls von der weiteren Analyse ausgeschlossen. Die übrigen 2245 ESTs wurden in 175 Contigs und 509 Singletons gruppiert, woraus sich Hinweise auf insgesamt 684 putative Einzelgene ergaben. 343 dieser 684 Klone zeigten jedoch keine Homologien zu humanen orthologen Sequenzen. Ursache für die fehlende Homologie muss in der grossen Zahl der Klone gesehen werden, bei welchen nur die 3´untranslatierten verglichen wurden. Im Gegensatz zu den kodierenden Sequenzabschnitten kommt es in den nicht-kodierenden Regionen in der Regel zu einer relativ raschen evolutionären Divergenz und damit zum Verlust der Homologie (Sharma et al, 2002). Durch zusätzliche Sequenzierung und Sequenzvergleiche der kodierenden Bereiche dieser 343 Klone lassen sich möglicherweise weitere RPE-spezifische Gene finden. Um die grosse Anzahl der im Rahmen des RPE-Projektes generierten Daten bearbeiten zu können wurde eine sehr effiziente und Benutzer-freundliche Datenbank auf Grundlage des RDBMS-Moduls etabliert. Dieses System gestattet die interaktive Bearbeitung der gespeicherten Daten im Query-Format. Darüberhinaus können die Daten in beliebiger Weise annotiert und verbunden werden. Nach Abzug der 343 nicht-homologen cDNA Klone von den 684 putativen Einzelsequenzen verblieben 341 Kandidaten-Sequenzen. 2 dieser Sequenzen wurden als putative neue RPE-spezifische Gene einer weiteren Analyse zugeführt. Dabei wurde zunächst die RPE- bzw. Retina-Spezifität dieser Kandidaten-Sequenzen mit Hilfe der RT-PCR Analyse bestätigt. Als Basis für zukünftige Fall-Kontroll- und Assoziationsstudien wurde eine SNP-Genotypisierung eines dieser zwei Klone (ursprüngliche Bezeichnung: RPE01-D2; derzeitige Bezeichnung: RDH12) durchgeführt. Die direkte Sequenzanalyse umfasste 23.4 kb und ergab insgesamt 12 SNPs, von denen sich 5 als hoch-informativ erwiesen. Auf dieser Grundlage können zukünftig Allel-Frequenzen zwischen Kontrollpersonen und AMD-Patienten ermittelt und verglichen werden. Zukünftig werden darüberhinaus real-time PCR Methoden zur Expressionsanalyse der verbliebenen Kandidaten-Klone eingesetzt. Zusammenfassend liefert die vorliegende Arbeit einen Beitrag zum Verständnis der genetischen Grundlagen der RPE-Funktionen und trägt zur Aufklärung der Rolle von RPE-spezifischen Genen bei der Disposition zur AMD bei. Zusätzlich ergaben sich Hinweise auf Kandidatengene, welche möglicherweise in der Pathogenese der AMD eine Rolle spielen. KW - Senile Makuladegeneration KW - Netzhaut KW - Pigmentepithel KW - Molekulargenetik KW - RPE KW - Bioinformatics KW - Age-related macular degeneration KW - Molecular approaches Y1 - 2003 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-6877 ER -