TY - THES A1 - Fasemore, Akinyemi Mandela T1 - Genomic and internet based analysis of \(Coxiella\) \(burnetii\) T1 - Genomische und Internet-basierte Analyse von \(Coxiella\) \(burnetii\) N2 - Coxiella burnetii, a Gram negative obligate intracellular bacterium, is the causative agent of Q fever. It has a world wide distribution and has been documented to be capable of causing infections in several domestic animals, livestock species, and human beings. Outbreaks of Q fever are still being observed in livestock across animal farms in Europe, and primary transmission to humans still oc- curs especially in animal handlers. Public health authorities in some countries like Germany are required by law to report human acute cases denoting the significance of the challenge posed by C. burnetii to public health. In this thesis, I have developed a platform alongside methods to address the challenges of genomic analyses of C. burnetii for typing purposes. Identification of C. burnetii isolates is an important task in the laboratory as well as in the clinics and genotyping is a reliable method to identify and characterize known and novel isolates. Therefore, I designed and implemented several methods to facilitate the genotyping analyses of C. burnetii genomes in silico via a web platform. As genotyping is a data intensive process, I also included additional features such as visualization methods and databases for interpretation and storage of obtained results. I also developed a method to profile the resistome of C. burnetii isolates using a machine learning approach. Data about antibiotic resistance in C. burnetii are scarce majorly due to its lifestyle and the difficulty of cultivation in laboratory media. Alternative methods that rely on homology identification of resistance genes are also inefficient in C. burnetii, hence, I opted for a novel approach that has been shown to be promising in other bacteria species. The applied method relied on an artificial neural network as well as amino acid composition of position specific scoring matrix profile for feature extraction. The resulting model achieved an accuracy of ≈ 0.96 on test data and the overall performance was significantly higher in comparison to existing models. Finally, I analyzed two new C. burnetii isolates obtained from an outbreak in Germany, I compared the genome to the RSA 493 reference isolate and found extensive deletions across the genome landscape. This work has provided a new digital infrastructure to analyze and character- ize C. burnetii genomes that was not in existence before and it has also made a significant contribution to the existing information about antibiotic resistance genes in C. burnetii. N2 - Coxiella burnetii, ein Gram-negatives, obligat intrazelluläres Bakterium, ist der Erreger des Q-Fiebers. Er hat eine weltweite Verbreitung und ist nachweis- lich in der Lage, Infektionen bei verschiedenen Haustieren, Nutztieren und Menschen zu verursachen. Ausbrüche von Q-Fieber werden immer noch in Tierbeständen in Europa beobachtet, und die Primärübertragung auf den Men- schen erfolgt nach wie vor allem durch Kontakt mit entsprechenden Tieren und ihren Ausscheidungen. Das öffentliche Gesundheitssystem in einigen Ländern wie Deutschland hat eine Meldepflicht für akute Fälle beim Menschen festge- legt, was die Bedeutung des Erregers bzw. seiner ausgelösten Erkrankung für die öffentliche Gesundheit verdeutlicht. In dieser Doktorarbeit habe ich eine Plattform neben weiteren Methoden entwickelt, um die Herausforderungen der Genomanalyse von C. burnetii für Genotypisierungsverfahren zu adressieren. Die Identifizierung von C. burnetii-Isolaten erfüllt eine wichtige Funktion im La- bor sowie in den Krankenhäusern, und die Genotypisierung ist eine verlässliche Methode, um bekannte und neue Isolate zu identifizieren und zu charakte- risieren. Daher habe ich mehrere Methoden konzipiert und implementiert, um die Analyse zur Genotypisierung von C. burnetii-Genomen in silico über eine Web-Plattform zu erleichtern. Da die Genotypisierung ein datenintensiver Prozess ist, habe ich ebenfalls zusätzliche Features wie Visualisierungsme- thoden und Datenbanken zur Interpretation und Speicherung der erhaltenen Ergebnisse mitaufgenommen. Ferner habe ich eine Methode zur Erstellung des Resistomprofils von C. burnetii-Isolaten unter Verwendung eines Ansat- zes des maschinellen Lernens entwickelt. Daten über Resistenzfaktoren bei C. burnetii sind rar, was hauptsächlich auf die obligat intrazelluläre Lebensweise der Coxiellen und die Schwierigkeiten bei der Kultivierung in Labormedien zurückzuführen ist. Alternative Methoden, die auf der Identifizierung der Ho- mologie von Resistenzgenen basieren, sind bei C. burnetii ebenfalls ineffizient. Aus diesem Grund entschied ich mich für einen neuen Ansatz, der sich bereits bei anderen Bakterienspezies als vielversprechend erwiesen hat. Die verwen- dete Methode basiert auf einem artifiziellen neuronalen Netzwerk sowie auf der Aminosäurezusammensetzung des positionsspezifischen Matrixprofils zur Extraktion von Features. Das daraus resultierende Modell erzielte eine Genauig- keit von ≈ 0,96 bei den Testdaten und die Gesamtleistung war signifikant höher im Vergleich zu den bereits vorhandenen Methoden. Schließlich analysierte ich zwei neue C. burnetii-Isolate, die von einem Q-Fieberausbruch in Deutschland stammten. Ich verglich das Genom mit dem RSA 493 Referenz Isolat und fand extensive Deletionen über das Genom sequenz. Mit dieser Arbeit wird eine neue digitale Infrastruktur zu Analyse von C. burnetii- Genomen bereitgestellt, die es vorher noch nicht gab. Zudem liefert diese Arbeit einen wichtigen Beitrag zu den bereits vorhandenen Informationen über Antibiotikaresistenzgene bei in C. burnetii. KW - Bioinformatics KW - Coxiella burnetii KW - Genotyping KW - Web services KW - Genomics Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-296639 ER - TY - THES A1 - Bischler, Thorsten David T1 - Data mining and software development for RNA-seq-based approaches in bacteria T1 - Data-Mining und Softwareentwicklung für RNA-seq-basierte Methoden bei Bakterien N2 - RNA sequencing (RNA-seq) has in recent years become the preferred method for gene expression analysis and whole transcriptome annotation. While initial RNA-seq experiments focused on eukaryotic messenger RNAs (mRNAs), which can be purified from the cellular ribonucleic acid (RNA) pool with relative ease, more advanced protocols had to be developed for sequencing of microbial transcriptomes. The resulting RNA-seq data revealed an unexpected complexity of bacterial transcriptomes and the requirement for specific analysis methods, which in many cases is not covered by tools developed for processing of eukaryotic data. The aim of this thesis was the development and application of specific data analysis methods for different RNA-seq-based approaches used to gain insights into transcription and gene regulatory processes in prokaryotes. The differential RNA sequencing (dRNA-seq) approach allows for transcriptional start site (TSS) annotation by differentiating between primary transcripts with a 5’-triphosphate (5’-PPP) and processed transcripts with a 5’-monophosphate (5’-P). This method was applied in combination with an automated TSS annotation tool to generate global trancriptome maps for Escherichia coli (E. coli) and Helicobacter pylori (H. pylori). In the E. coli study we conducted different downstream analyses to gain a deeper understanding of the nature and properties of transcripts in our TSS map. Here, we focused especially on putative antisense RNAs (asRNAs), an RNA class transcribed from the opposite strand of known protein-coding genes with the potential to regulate corresponding sense transcripts. Besides providing a set of putative asRNAs and experimental validation of candidates via Northern analysis, we analyzed and discussed different sources of variation in RNA-seq data. The aim of the H. pylori study was to provide a detailed description of the dRNA-seq approach and its application to a bacterial model organism. It includes information on experimental protocols and requirements for data analysis to generate a genome-wide TSS map. We show how the included TSS can be used to identify and analyze transcriptome and regulatory features and discuss challenges in terms oflibrary preparation protocols, sequencing platforms, and data analysis including manual and automated TSS annotation. The TSS maps and associated transcriptome data from both H. pylori and E. coli were made available for visualization in an easily accessible online browser. Furthermore, a modified version of dRNA-seq was used to identify transcriptome targets of the RNA pyrophosphohydrolase (RppH) in H. pylori. RppH initiates 5’-end-dependent degradation of transcripts by converting the 5’-PPP of primary transcripts to a 5’-P. I developed an analysis method, which uses data from complementary DNA (cDNA) libraries specific for transcripts carrying a 5’-PPP, 5’-P or both, to specifically identify transcripts modified by RppH. For this, the method assessed the 5’-phosphorylation state and cellular concentration of transcripts in rppH deletion in comparison to strains with the intact gene. Several of the identified potential RppH targets were further validated via half-life measurements and quantification of their 5’-phosphorylation state in wild-type and mutant cells. Our findings suggest an important role for RppH in post-transcriptional gene regulationin H. pylori and related organisms. In addition, we applied two RNA-seq -based approaches, RNA immunoprecipitation followed by sequencing (RIP-seq) and cross-linking immunoprecipitation followed by sequencing (CLIP-seq), to identify transcripts bound by Hfq and CsrA, two RNA-binding proteins (RBPs) with an important role in post-transcriptional regulation. For RIP-seq -based identification of CsrA binding regions in Campylobacter jejuni(C. jejuni), we used annotation-based analysis and, in addition, a self-developed peak calling method based on a sliding window approach. Both methods revealed flaA mRNA, encoding the major flagellin, as the main target and functional analysis of identified targets showed a significant enrichment of genes involved in flagella biosynthesis. Further experimental analysis revealed the role of flaA mRNA in post-transcriptional regulation. In comparison to RIP-seq, CLIP-seq allows mapping of RBP binding sites with a higher resolution. To identify these sites an approach called “block-based peak calling” was developed and resulting peaks were used to identify sequence and structural constraints required for interaction of Hfq and CsrA with Salmonella transcripts. Overall, the different RNA-seq-based approaches described in this thesis together with their associated analyis pipelines extended our knowledge on the transcriptional repertoire and modes of post-transcriptional regulation in bacteria. The global TSS maps, including further characterized asRNA candidates, putative RppH targets, and identified RBP interactomes will likely trigger similar global studies in the same or different organisms or will be used as a resource for closer examination of these features. N2 - RNA-Sequenzierung (RNA-seq) entwickelte sich in den letzten Jahren zur bevorzugten Methode für Genexpressionsanalysen und die Annotation ganzer Transkriptome. Nachdem sich erste RNA-seq-Experimente hauptsächlich mit eukaryotischen Boten-RNAs (mRNAs) beschäftigt hatten, da diese sich relativ einfach aus dem zellulären RNA-Gemisch aufreinigen lassen, war die Entwicklung von fortschrittlicheren Methoden nötig, um mikrobielle Transkriptome zu sequenzieren. Die sich daraus ergebenden RNA-seq-Daten enthüllten eine unerwartete Komplexität bakterieller Transkriptome und die Notwendigkeit der Anwendung spezifischer Analyseverfahren, welche von Tools zur Prozessierung eukaryotischer Daten häufig nicht zur Verfügung gestellt werden. Das Ziel dieser Doktorarbeit war die Entwicklung und Anwendung spezifischer Verfahren zur Datenanalyse für verschiedene RNA-seq-basierte Methoden, um Erkenntnisse bezüglich Transkription und genregulatorischer Vorgänge bei Prokaryoten zu erlangen. Die Differentielle-RNA-Sequenzierungsmethode (dRNA-seq) ermöglicht die Annotation von Transkriptionsstartpunkten (TSS), indem sie Primärtranskripte mit einem 5'-Triphosphat (5'-PPP) von prozessierten Transkripten mit einem 5'-Monophosphat (5'-P) unterscheidet. Diese Methode wurde in Kombination mit einem automatisierten TSS-Annotationstool zur Erstellung globaler Transkriptomkarten für Escherichia coli (E. coli) and Helicobacter pylori (H. pylori) verwendet. In der E. coli-Studie haben wir verschiedene Folgeanalysen durchgeführt, um ein tieferes Verständnis für die Natur und Eigenschaften der in unserer Transkriptomkarte enthaltenen Transkripte zu erlangen. Das Hauptaugenmerk lag dabei auf mutmaßlichen Antisense-RNAs (asRNAs). Diese stellen eine RNA-Klasse dar, welche vom entgegengesetzten Strang von bekannten proteinkodierenden Genen transkribiert wird, und die das Potenzial hat, entsprechende Sense-Transkripte zu regulieren. Wir stellen nicht nur eine Liste mutmaßlicher asRNAs zur Verfügung, von der einige Kandidaten durch Northern Blots validiert wurden, sondern diskutierten auch von uns untersuchte Gründe für auftretende Variation bei RNA-seq-Daten. Das Ziel der H. pylori-Studie war es, eine detaillierte Beschreibung der dRNA-seq-Methode und deren Anwendung auf einen bakteriellen Modellorganismus zur Verfügung zu stellen. Sie enthält Informationen bezüglich experimenteller Protokolle und für die Datenanalyse notwendige Schritte, zur Erstellung einer genomweiten TSS-Karte. Wir zeigen, wie die enthaltenen TSS verwendet werden können, um verschiedene Transkriptomelemente, einschließlich solcher mit regulatorischen Eigenschaften, zu identifizieren und zu analysieren. Zusätzlich diskutieren wir Probleme, welche bei der Erstellung von Sequenzierlibraries, der Verwendung von Sequenzierplattformen und bei der Datenanalyse, einschließlich manueller und automatisierter TSS-Annotation, auftreten können. Die TSS-Karten für H. pylori und E. coli, einschließlich der damit verbundenen Transkriptomdaten, haben wir in Form eines leicht zugänglichen Online-Browsers verfügbar gemacht. Desweiteren wurde eine modifizierte Version der dRNA-seq-Methode verwendet, um Transkripte zu identifizieren, welche von der RNA Pyrophosphohydrolase (RppH) in H. pylori gespalten werden. RppH initiiert den vom 5'-Ende abhängigen RNA-Abbau, indem sie das 5'-PPP von Primärtranskripten in ein 5'-P umwandelt. Ich habe eine Analysemethode entwickelt, welche Daten basierend auf unterschiedlichen Komplementär-DNA (cDNA)-Libraries verwendet, welche entweder spezifisch für Transkripte mit einem 5'-PPP oder einem 5'-P sind, oder beides enthalten, um spezifisch Transkripte zu indentifizieren, die durch RppH modifiziert werden. Um dies zu erreichen wurden der 5'-Phosphorylierungsstatus und die zelluläre Konzentration der Transkripte zwischen einer rppH-Deletionsmutante und Stämmen mit intaktem Gen verglichen. Weiterhin wurden mehrere der identifizierten, von RppH gespaltenen Transkripte durch Messung ihrer Halbwertszeit und Quantifizierung ihres 5'-Phosphorylierungsstatus bei Wildtyp- und mutierten Zellen validiert. Unsere Ergebnisse lassen auf eine wichtige Rolle von RppH bei der Genregulation in H. pylori und verwandten Organismen schließen. Zusätzlich haben wir zwei weitere RNA-seq-basierte Methoden namens RNA-Immunpräzipitation gefolgt von RNA-Sequenzierung (RIP-seq) und Quervernetzung und Immunpräzipitation gefolgt von RNA-Sequenzierung (CLIP-seq) verwendet, um Transkripte zu identifizieren, welche von Hfq und CsrA gebunden werden, zwei RNA-Bindeproteinen (RBPs), die eine wichtige Rolle bei posttranskriptionaler Regulation spielen. Zur RIP-seq-basierten Identifikation von CsrA-Binderegionen bei Campylobacter jejuni (C. jejuni) haben wir eine annotationsbasierte Analyse und zusätzlich eine eigens entwickelte Peak-Bestimmungsmethode verwendet. Beide Methoden haben die flaA mRNA, welche das Hauptflagellin kodiert, als stärksten Bindepartner identifiziert. Die Funktionale-Anreicherungsanalyse hat außerdem eine Anreicherung von Genen ergeben, welche für die Flagellenbiosynthese von Bedeutung sind. Im Vergleich zu RIP-seq ermöglicht CLIP-seq eine höhere Auflösung bei der Kartografierung von Bindestellen. Um diese Stellen zu identifizieren wurde eine Methode mit der Bezeichnung ``block-based peak calling'' entwickelt, und die daraus resultierenden Peaks wurden verwendet, um sequenz- und strukturabhängige Bedingungen zu bestimmen, die bei Salmonella für die Interaktion von Transkripten mit Hfq und CsrA notwendig sind. Insgesamt betrachtet haben die verschiedenen RNA-seq-basierten Methoden, welche in dieser Doktorarbeit beschrieben wurden, in Kombination mit den damit verbundenen Analysepipelines, unser Verständnis des transkriptionellen Repertoires und der Art und Weise, wie posttranskriptionelle Regulation bei Bakterien abläuft, erweitert. Die globalen TSS-Karten, einschließlich der charakterisierten asRNA-Kandidaten, die mutmaßlich von RppH gespaltenen Transkripte und die identifizierten RBP-Interaktome werden höchstwahrscheinlich zur Durchführung ähnlicher Studien bei den gleichen oder anderen Organismen führen, oder können als Grundlage für eine detailliertere Untersuchung dieser Elemente verwendet werden. KW - Bakterien KW - RNA sequencing KW - Bioinformatics KW - Bacteria KW - Transcriptome KW - Post-transcriptional regulation KW - RNA-binding proteins KW - Sequenzanalyse KW - RNS Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-166108 ER - TY - THES A1 - Sharan, Malvika T1 - Bio-computational identification and characterization of RNA-binding proteins in bacteria T1 - Bioinformatische Identifikation und Charakterisierung von RNA-bindenden Proteinen in Bakterien N2 - RNA-binding proteins (RBPs) have been extensively studied in eukaryotes, where they post-transcriptionally regulate many cellular events including RNA transport, translation, and stability. Experimental techniques, such as cross-linking and co-purification followed by either mass spectrometry or RNA sequencing has enabled the identification and characterization of RBPs, their conserved RNA-binding domains (RBDs), and the regulatory roles of these proteins on a genome-wide scale. These developments in quantitative, high-resolution, and high-throughput screening techniques have greatly expanded our understanding of RBPs in human and yeast cells. In contrast, our knowledge of number and potential diversity of RBPs in bacteria is comparatively poor, in part due to the technical challenges associated with existing global screening approaches developed in eukaryotes. Genome- and proteome-wide screening approaches performed in silico may circumvent these technical issues to obtain a broad picture of the RNA interactome of bacteria and identify strong RBP candidates for more detailed experimental study. Here, I report APRICOT (“Analyzing Protein RNA Interaction by Combined Output Technique”), a computational pipeline for the sequence-based identification and characterization of candidate RNA-binding proteins encoded in the genomes of all domains of life using RBDs known from experimental studies. The pipeline identifies functional motifs in protein sequences of an input proteome using position-specific scoring matrices and hidden Markov models of all conserved domains available in the databases and then statistically score them based on a series of sequence-based features. Subsequently, APRICOT identifies putative RBPs and characterizes them according to functionally relevant structural properties. APRICOT performed better than other existing tools for the sequence-based prediction on the known RBP data sets. The applications and adaptability of the software was demonstrated on several large bacterial RBP data sets including the complete proteome of Salmonella Typhimurium strain SL1344. APRICOT reported 1068 Salmonella proteins as RBP candidates, which were subsequently categorized using the RBDs that have been reported in both eukaryotic and bacterial proteins. A set of 131 strong RBP candidates was selected for experimental confirmation and characterization of RNA-binding activity using RNA co-immunoprecipitation followed by high-throughput sequencing (RIP-Seq) experiments. Based on the relative abundance of transcripts across the RIP-Seq libraries, a catalogue of enriched genes was established for each candidate, which shows the RNA-binding potential of 90% of these proteins. Furthermore, the direct targets of few of these putative RBPs were validated by means of cross-linking and co-immunoprecipitation (CLIP) experiments. This thesis presents the computational pipeline APRICOT for the global screening of protein primary sequences for potential RBPs in bacteria using RBD information from all kingdoms of life. Furthermore, it provides the first bio-computational resource of putative RBPs in Salmonella, which could now be further studied for their biological and regulatory roles. The command line tool and its documentation are available at https://malvikasharan.github.io/APRICOT/. N2 - RNA-bindende Proteine (RBPs) wurden umfangreich in Eukaryoten erforscht, in denen sie viele Prozesse wie RNA-Transport, -Translation und -Stabilität post-transkriptionell regulieren. Experimentelle Methoden wie Cross-linking and Koimmunpräzipitation mit nachfolgedener Massenspektromentrie / RNA-Sequenzierung ermöglichten eine weitreichende Charakterisierung von RBPs, RNA-bindenden Domänen (RBDs) und deren regulatorischen Rollen in eukaryotischen Spezies wie Mensch und Hefe. Weitere Entwicklungen im Bereich der hochdurchsatzbasierten Screeningverfahren konnten das Verständnis von RBPs in Eukaryoten enorm erweitern. Im Gegensatz dazu ist das Wissen über die Anzahl und die potenzielle Vielfalt von RBPs in Bakterien dürftig. In der vorliegenden Arbeit präsentiere ich APRICOT, eine bioinformatische Pipeline zur sequenzbasierten Identifikation und Charakterisierung von Proteinen aller Domänen des Lebens, die auf RBD-Informationen aus experimentellen Studien aufbaut. Die Pipeline nutzt Position Specific Scoring Matrices und Hidden-MarkovModelle konservierter Domänen, um funktionelle Motive in Proteinsequenzen zu identifizieren und diese anhand von sequenzbasierter Eigenschaften statistisch zu bewerten. Anschließend identifiziert APRICOT mögliche RBPs und charakterisiert auf Basis ihrer biologischeren Eigenschaften. In Vergleichen mit ähnlichen Werkzeugen übertraf APRICOT andere Programme zur sequenzbasierten Vorhersage von RBPs. Die Anwendungsöglichkeiten und die Flexibilität der Software wird am Beispiel einiger großer RBP-Kollektionen, die auch das komplette Proteom von Salmonella Typhimurium SL1344 beinhalten, dargelegt. APRICOT identifiziert 1068 Proteine von Salmonella als RBP-Kandidaten, die anschließend unter Nutzung der bereits bekannten bakteriellen und eukaryotischen RBDs klassifiziert wurden. 131 der RBP-Kandidaten wurden zur Charakterisierung durch RNA co-immunoprecipitation followed by high-throughput sequencing (RIP-seq) ausgewählt. Basierend auf der relativen Menge an Transkripten in den RIP-seq-Bibliotheken wurde ein Katalog von angereicherten Genen erstellt, der auf eine potentielle RNA-bindende Funktion in 90% dieser Proteine hindeutet. Weiterhin wurden die Bindungstellen einiger dieser möglichen RBPs mit Cross-linking and Co-immunoprecipitation (CLIP) bestimmt. Diese Doktorarbeit beschreibt die bioinformatische Pipeline APRICOT, die ein globales Screening von RBPs in Bakterien anhand von Informationen bekannter RBDs ermöglicht. Zudem enthält sie eine Zusammenstellung aller potentieller RPS in Salmonella, die nun auf ihre biologsche Funktion hin untersucht werden können. Das Kommondozeilen-Programm und seine Dokumentation sind auf https://malvikasharan.github.io/APRICOT/ verfügbar. KW - Bioinformatics Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-153573 ER - TY - THES A1 - Horn, Hannes T1 - Analysis and interpretation of (meta-)genomic data from host-associated microorganisms T1 - Analyse und Interpretation von (meta-)genomischen Daten aus Wirt-assoziierten Mikroorganismen N2 - Host–microbe interactions are the key to understand why and how microbes inhabit specific environments. With the scientific fields of microbial genomics and metagenomics, evolving on an unprecedented scale, one is able to gain insights in these interactions on a molecular and ecological level. The goal of this PhD thesis was to make (meta–)genomic data accessible, integrate it in a comparative manner and to gain comprehensive taxonomic and functional insights into bacterial strains and communities derived from two different environments: the phyllosphere of Arabidopsis thaliana and the mesohyl interior of marine sponges. This thesis focused first on the de novo assembly of bacterial genomes. A 5–step protocol was developed, each step including a quality control. The examination of different assembly software in a comparative way identified SPAdes as most suitable. The protocol enables the user to chose the best tailored assembly. Contamination issues were solved by an initial filtering of the data and methods normally used for the binning of metagenomic datasets. This step is missed in many published assembly pipelines. The described protocol offers assemblies of high quality ready for downstream analysis. Subsequently, assemblies generated with the developed protocol were annotated and explored in terms of their function. In a first study, the genome of a phyllosphere bacterium, Williamsia sp. ARP1, was analyzed, offering many adaptions to the leaf habitat: it can deal with temperature shifts, react to oxygen species, produces mycosporins as protection against UV–light, and is able to uptake photosynthates. Further, its taxonomic position within the Actinomycetales was infered from 16S rRNA and comparative genomics showing the close relation between the genera Williamsia and Gordonia. In a second study, six sponge–derived actinomycete genomes were investigated for secondary metabolism. By use of state–of–the–art software, these strains exhibited numerous gene clusters, mostly linked to polykethide synthases, non–ribosomal peptide synthesis, terpenes, fatty acids and saccharides. Subsequent predictions on these clusters offered a great variety of possible produced compounds with antibiotic, antifungal or anti–cancer activity. These analysis highlight the potential for the synthesis of natural products and the use of genomic data as screening toolkit. In a last study, three sponge–derived and one seawater metagenomes were functionally compared. Different signatures regarding the microbial composition and GC–distribution were observed between the two environments. With a focus on bacerial defense systems, the data indicates a pronounced repertoire of sponge associated bacteria for bacterial defense systems, in particular, Clustered Regularly Interspaced Short Palindromic Repeats, restriction modification system, DNA phosphorothioation and phage growth limitation. In addition, characterizing genes for secondary metabolite cluster differed between sponge and seawater microbiomes. Moreover, a variety of Type I polyketide synthases were only found within the sponge microbiomes. With that, metagenomics are shown to be a useful tool for the screening of secondary metabolite genes. Furthermore, enriched defense systems are highlighted as feature of sponge-associated microbes and marks them as a selective trait. N2 - Mikroben–Wirt Interaktionen sind der Schlüssel, um zu verstehen “Wie?” und “Warum?” Mikroben in bestimmten Umgebungen vorkommen. Mithilfe von Genomik und Metagenomik lassen sich Einblicke auf dem molekularen sowie ökolgischen Level gewinnen. Ziel dieser Arbeit war es, diese Daten zugänglich zu machen und zu vergleichen, um Erkenntnisse auf taxonomischer und funktionaler Ebene in bakterielle Isolate und bakterielle Konsortien zu erhalten. Dabei wurden Daten aus zwei verschiedenen Umgebungen erhoben: der Phyllosphäre von Arabidopsis thaliana und aus der Mesohyl–Matrix mariner Schwämme. Das Ziel war zunächst, bakterieller Genome denovo zu assemblieren. Dazu wurde ein Protokoll, bestehend aus 5 Schritten, entwickelt. Durch Verwendung verschiedener Soft- ware zum Assemblieren konnte SPAdes als am besten geeignet für die gegebenen Daten herausgearbeitet werden. Durch anfängliches Filtern der Daten konnte erste Kontamina- tion entfernt werden. Durch das Anwenden weiterer Methoden, welche ursprünglich für metagenomische Datensätze entwickelt wurden, konnten weitere Kontaminationen erkannt und von den “echten” Daten getrennt werden. Ein Schritt, welcher in den meisten pub- lizierten Assembly–Pipelines fehlt. Das Protokoll ermöglicht das Erstellen hochqualitativer Assemblies, welche zur weiteren Analyse nicht weiter aufbereitet werden müssen. Nachfolgend wurden die generierten Assemblies annotiert. Das Genom von William- sia sp. ARP1 wurde untersucht und durch dessen Interpretation konnten viele Anpassungen an die Existenz in der Phyllosphäre gezeigt werden: Anpassung an Termperaturveränderun- gen, Produktion von Mycosporinen als Schutz vor UV–Strahlung und die Möglichkeit, von der Pflanze durch Photosynthese hergestellte Substanzen aufzunehmen. Seine taxonomische Position wurde aufgrund von 16S rRNA sowie vergleichende Genomik bestimmt. Dadurch konnte eine nahe Verwandtschaft zwischen den Gattungen Williamsia und Gordonia gezeigt werden. In einer weiteren Studie wurden sechs Actinomyceten–Genome, isoliert aus Schwämmen, hinsichtlich ihres Sekundärmetabolismus untersucht. Mihilfe moderner Software konnten in zahlreiche Gen–Cluster identifiziert werden. Zumeist zeigten diese eine Zugehörigkeit zu Polyketidsynthasen, Nichtribosomalen Peptidsynthasen, Terpenen, Fettsäuren oder Sac- chariden. Durch eine tiefere Analyse konnten die Cluster mit chemischen Verbindungen assoziiert werden, welche antibakterielle oder fungizide Eigenschaften besitzen. In der letzten Untersuchung wurden Metagenome von drei Schwämmen sowie Meerwasser auf funktioneller Ebene verglichen. Beobachtet wurden Unterschiede in deren mikrobiellen Konsortien und GC–Gehalt. Schwamm–assoziierte Bakterien zeigten ein ausgeprägtes Inventar an Verteidigungsmechanismen gegenüber deren Vertretern aus dem Meerwasser. Dies beinhaltete vor allem: Clustered Regularly Interspaced Short Palindromic Repeats, das Restriktions-Modifikationssystem, DNA Phosphorothioation, oder Gene, welche das Wachstum von Phagen hemmen können. Gene für Sekundärmetabolite waren zwischen Schwamm– und Meerwasser–Metagenomen unterschiedlich stark ausgeprägt. So konnten Typ I Polyketidsynthasen ausschließlich in den Schwamm–Metagenomen gefunden werden. Dies zeigt, dass metagenomische Daten ebenso wie genomische Daten zur Untersuchung des Sekundärmetabolismus genutzt werden können. Des Weiteren zeigt die Anhäufung an Verteidigungsmechanismen eine Anpassung von Schwamm–assoziierten Mikroben an ihre Umgebung und ist ein Hinweis auf deren mögliche selektive Eigenschaft. KW - Bakterien KW - Meeresschwämme KW - Metagenom KW - Phyllosphäre KW - Ackerschmalwand KW - Metagenomics KW - Genomics KW - Phyllosphere KW - Sponges KW - Bacteria KW - Deep sequencing KW - Arabidopsis thaliana KW - Bioinformatics Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-152035 ER -