TY - THES A1 - Dugar, Gaurav T1 - Comparative transcriptomics and post-transcriptional regulation in \(Campylobacter\) \(jejuni\) T1 - Vergleichende Transkriptomanalysen und posttranskriptionelle Regulierung in \(Campylobacter\) \(jejuni\) N2 - The transcriptome is defined as the set of all RNA molecules transcribed in a cell. These include protein-coding messenger RNAs (mRNAs) as well as non-coding RNAs, such as ribosomal RNAs (rRNAs), transfer RNAs (tRNAs), and small non-coding RNAs (sRNAs). sRNAs are known to play an important role in regulating gene expression and virulence in pathogens. In this thesis, the transcriptome of the food-borne pathogen Campylobacter jejuni was characterized at single nucleotide resolution by use of next-generation sequencing approaches. The first genome of a C. jejuni strain was published in the year 2000. However, its transcriptome remained uncharacterized at large. C. jejuni can survive in a variety of ecological niches and hosts. However, how strain-specific transcriptional changes contribute to such adaptation is not known. In this study, the global transcriptome maps of four closely related C. jejuni strains were defined using a differential RNA-seq (dRNA-seq) approach. This analysis also included a novel automated method to annotate the transcriptional start sites (TSS) at a genome-wide scale. Next, the transcriptomes of four strains were simultaneously mapped and compared by the use of a common coordinate system derived from whole-genome alignment, termed as SuperGenome. This approach helped to refine the promoter maps by comparison of TSS within strains. Most of the TSS were found to be conserved among all four strains, but some single-nucleotide-polymorphisms (SNPs) around promoter regions led to strain-specific transcriptional output. Most of these SNPs altered transcription only slightly, but some others led to a complete abrogation of transcription leading to differential molecular phenotypes. These in turn might help the strains to adapt to their specific host or microniche. The transcriptome also unveiled a plethora of sRNAs, some of which were conserved among the four strains while others were strain specific. Furthermore, a Cas9-dependent minimal type-II CRISPR-Cas system with only three Cas genes and multiple promoters to drive the transcription of the CRISPR locus was also characterized in C. jejuni using the dRNA-seq dataset. Apart from sRNAs, the role of global RNA binding proteins (RBPs) is also unclear in C. jejuni. Aided by the global transcriptome data, the role of RBPs in post-transcriptional regulation of C. jejuni was studied at a global scale. Two of the most widely studied RNA binding proteins in bacteria are Hfq and CsrA. The RNA interactome of the translational regulator CsrA was defined using another global deep-sequencing technique that combines co-immunoprecipitation (coIP) with RNA sequencing (RIP-seq). Using this interactome dataset, the direct targets of this widespread global post-transcriptional regulator were defined, revealing a significant enrichment for mRNAs encoding genes involved in flagella biosynthesis. Unlike Gammaproteobacteria, where sRNAs such as CsrB/C, antagonize CsrA activity, no sRNAs were enriched in the CsrA-coIP in C. jejuni, indicating absence of any sRNA antagonists and novel modes of CsrA activity regulation. Instead, the CsrA regulatory pathway revealed flaA mRNA, encoding the major flagellin, as a dual-function mRNA. flaA mRNA was the main target of CsrA but it also served to antagonize CsrA activity along with the protein antagonist FliW previously identified in the Gram-positive bacterium Bacillus subtilis. Furthermore, this regulatory mRNA was also shown in this thesis to localize to the poles of elongating C. jejuni cells in a translation-dependent manner. It was also shown that this localization is dependent on the CsrA-FliW regulon, which controls the translation of flaA mRNA. The role and mechanism of flaA mRNA localization or mRNA localization in general is not yet clear in bacteria when compared to their eukaryotic counterparts. Overall, this study provides first insights into riboregulation of the bacterial pathogen C. jejuni. The work presented in this thesis unveils several novel modes of riboregulation in C. jejuni, which could be applicable more generally. Moreover, this study also lays out several unsolved intriguing questions, which may pave the way for interesting studies to come. N2 - Das Transkriptom ist definiert als die Summe aller RNA-Moleküle, die in einer Zelle transkribiert werden. Hierzu gehören sowohl protein-kodierende Boten-RNAs (mRNAs für „messenger RNAs“), als auch nicht-kodierende RNAs, wie ribosomale RNAs (rRNAs), transfer RNAs (tRNAs) und kleine nicht-kodierende RNAs (sRNAs für „small RNAs“). Diese sRNAs spielen eine wichtige Rolle in der Regulierung von Genexpression und Virulenz von Pathogenen. In der vorliegenden Arbeit wurde das Transkriptom des Lebensmittelkeims Campylobacter jejuni mit Hilfe von Next-Generation-Sequencing-Methoden charakterisiert, welche eine Auflösung des Transkriptoms auf Einzelnukleotid-Ebene ermöglichen. Obwohl eine erste Genomsequenz für C. jejuni bereits im Jahr 2000 veröffentlicht wurde, war das Transkriptom bisher größtenteils uncharakterisiert. C. jejuni besitzt die Fähigkeit in vielen ökologischen Nischen und Wirten überleben zu können. Es ist jedoch bislang unbekannt, wie stammspezifische Veränderungen des Transkriptoms zu dieser Adaption beitragen. Mittels eines differenziellen RNA-Sequenzierungsansatzes wurden in dieser Arbeit globale Transkriptomkarten von vier nahverwandten C. jejuni Stämmen erstellt. Diese Analyse beinhaltet auch eine neue automatisierte Methode zur genomweiten Identifizierung von Transkriptionsstartstellen (TSS). Anschließend wurde aus den Genomsequenzen der vier Campylobacter Stämme ein SuperGenom erstellt. Dieses wiederum diente als Referenz, anhand dessen die Transkriptome kartiert und miteinander verglichen werden konnten. Dieser Ansatz ermöglichte eine verfeinerte Kartierung der Promotoren mittels des Vergleichs verschiedener Stämme. Die meisten TSS waren innerhalb der vier Stämme konserviert. Allerdings kam es durch SNPs („single-nucleotide polymorphisms“) in den Promoterregionen zu stammspezifischem Transkriptoutput. Die meisten dieser SNPs hatten nur geringe Veränderungen der Transkription zur Folge. Manche jedoch führten zu einem kompletten Verlust der Transkription und damit zu verschiedenen molekularen Phänotypen. Diese wiederum könnten es den verschiedenen Stämmen ermöglichen, sich an ihre spezifische Wirts- oder Mikronische anzupassen. Das Transkriptom wies auch eine Fülle von sRNAs auf, von denen manche in allen vier Stämmen konserviert, andere jedoch stammspezifisch waren. Zudem wurde mittels des C. jejuni-dRNA-seq-Datensatzes ein minimales Cas9-abhängiges CRISPR-Cas-System des Typs II entdeckt. Dieses beinhaltet lediglich drei Cas-Gene, jedoch mehrere Promotoren, die die Expression des CRISPR-Lokus antreiben. Neben der Funktion von sRNAs ist auch die Rolle globaler RNA-Bindeproteine (RBPs) in C. jejuni weitestgehend unklar. Mithilfe der Transkriptomdaten wurde die Rolle von RBPs in der posttranskriptionellen Regulierung in C. jejuni untersucht. Zwei der am besten untersuchten RNA-Bindeproteine in Bakterien sind Hfq und CsrA. Das RNA-Interaktom des Translationsregulators CsrA wurde mittels eines weiteren globalen Deep-Squencing-Ansatzes definiert. Bei dieser Methode werden Coimmunopräzipitation (coIP) und RNA-Sequenzierung zum so genannten RIP-seq kombiniert. Mithilfe dieses Interaktionsdatensatzes wurden die Zielgene dieses weitverbreiteten, globalen posttranskriptionellen Regulators definiert. Hierbei wurde eine signifikante Anreicherung von mRNAs, die in die Biosynthese von Flagellen involviert sind, erkennbar. Anders als in Gammaproteobakterien, in denen sRNAs wie CsrB und CsrC die CsrA-Aktivität antagonisieren, wurden in C. jejuni keine sRNAs in der CsrA-CoIP angereichert. Dies deutet auf das Fehlen jeglicher sRNA-Antagonisten, und damit auf eine neue Art der CsrA-Aktivitätskontrolle hin. Anstelle der sRNAs wurde die flaA mRNA, welche für das Hauptflagellin kodiert, als mRNA mit dualer Funktion identifiziert. Sie ist zum einen das Hauptzielgen von CsrA, fungiert aber gleichzeitig, zusammen mit dem Protein FliW, als Antagonist von CsrA. FliW wurde bereits zuvor in dem Grampositiven Bakterium Bacillus subtilis identifiziert. In dieser Arbeit konnte zudem gezeigt werden, dass die regulatorische flaA mRNA translationsabhängig an den Polen der wachsenden C. jejuni-Zellen lokalisiert ist. Außerdem war zu erkennen, dass diese Lokalisierung abhängig von dem CsrA-FliW-Regulon stattfindet, welches die Translation der flaA-mRNA kontrolliert. Im Gegensatz zu Eukaryoten ist die Rolle, die die Lokalisation der flaA-mRNA, oder bakterieller mRNA im Allgemeinen, spielt, sowie der Mechanismus, der zu dieser Lokalisierung führt, bisher noch unklar. Zusammenfassend ermöglicht diese Arbeit einen ersten Einblick in die Riboregulierung des bakteriellen Pathogens C. jejuni. Es konnten einige neue Mechanismen dieser Art der Regulierung aufgedeckt werden, welche auch allgemeine Gültigkeit finden könnten. Zudem werden in dieser Arbeit neue, faszinierende Fragen aufgeworfen, die den Weg für weitere interessante Studien bereiten. KW - Post-transcriptional regulation KW - Transcriptome KW - SNPs KW - CsrA KW - Campylobacter jejuni KW - Transkriptom KW - Posttranskriptionelle Regulation Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-146180 ER - TY - THES A1 - Bischler, Thorsten David T1 - Data mining and software development for RNA-seq-based approaches in bacteria T1 - Data-Mining und Softwareentwicklung für RNA-seq-basierte Methoden bei Bakterien N2 - RNA sequencing (RNA-seq) has in recent years become the preferred method for gene expression analysis and whole transcriptome annotation. While initial RNA-seq experiments focused on eukaryotic messenger RNAs (mRNAs), which can be purified from the cellular ribonucleic acid (RNA) pool with relative ease, more advanced protocols had to be developed for sequencing of microbial transcriptomes. The resulting RNA-seq data revealed an unexpected complexity of bacterial transcriptomes and the requirement for specific analysis methods, which in many cases is not covered by tools developed for processing of eukaryotic data. The aim of this thesis was the development and application of specific data analysis methods for different RNA-seq-based approaches used to gain insights into transcription and gene regulatory processes in prokaryotes. The differential RNA sequencing (dRNA-seq) approach allows for transcriptional start site (TSS) annotation by differentiating between primary transcripts with a 5’-triphosphate (5’-PPP) and processed transcripts with a 5’-monophosphate (5’-P). This method was applied in combination with an automated TSS annotation tool to generate global trancriptome maps for Escherichia coli (E. coli) and Helicobacter pylori (H. pylori). In the E. coli study we conducted different downstream analyses to gain a deeper understanding of the nature and properties of transcripts in our TSS map. Here, we focused especially on putative antisense RNAs (asRNAs), an RNA class transcribed from the opposite strand of known protein-coding genes with the potential to regulate corresponding sense transcripts. Besides providing a set of putative asRNAs and experimental validation of candidates via Northern analysis, we analyzed and discussed different sources of variation in RNA-seq data. The aim of the H. pylori study was to provide a detailed description of the dRNA-seq approach and its application to a bacterial model organism. It includes information on experimental protocols and requirements for data analysis to generate a genome-wide TSS map. We show how the included TSS can be used to identify and analyze transcriptome and regulatory features and discuss challenges in terms oflibrary preparation protocols, sequencing platforms, and data analysis including manual and automated TSS annotation. The TSS maps and associated transcriptome data from both H. pylori and E. coli were made available for visualization in an easily accessible online browser. Furthermore, a modified version of dRNA-seq was used to identify transcriptome targets of the RNA pyrophosphohydrolase (RppH) in H. pylori. RppH initiates 5’-end-dependent degradation of transcripts by converting the 5’-PPP of primary transcripts to a 5’-P. I developed an analysis method, which uses data from complementary DNA (cDNA) libraries specific for transcripts carrying a 5’-PPP, 5’-P or both, to specifically identify transcripts modified by RppH. For this, the method assessed the 5’-phosphorylation state and cellular concentration of transcripts in rppH deletion in comparison to strains with the intact gene. Several of the identified potential RppH targets were further validated via half-life measurements and quantification of their 5’-phosphorylation state in wild-type and mutant cells. Our findings suggest an important role for RppH in post-transcriptional gene regulationin H. pylori and related organisms. In addition, we applied two RNA-seq -based approaches, RNA immunoprecipitation followed by sequencing (RIP-seq) and cross-linking immunoprecipitation followed by sequencing (CLIP-seq), to identify transcripts bound by Hfq and CsrA, two RNA-binding proteins (RBPs) with an important role in post-transcriptional regulation. For RIP-seq -based identification of CsrA binding regions in Campylobacter jejuni(C. jejuni), we used annotation-based analysis and, in addition, a self-developed peak calling method based on a sliding window approach. Both methods revealed flaA mRNA, encoding the major flagellin, as the main target and functional analysis of identified targets showed a significant enrichment of genes involved in flagella biosynthesis. Further experimental analysis revealed the role of flaA mRNA in post-transcriptional regulation. In comparison to RIP-seq, CLIP-seq allows mapping of RBP binding sites with a higher resolution. To identify these sites an approach called “block-based peak calling” was developed and resulting peaks were used to identify sequence and structural constraints required for interaction of Hfq and CsrA with Salmonella transcripts. Overall, the different RNA-seq-based approaches described in this thesis together with their associated analyis pipelines extended our knowledge on the transcriptional repertoire and modes of post-transcriptional regulation in bacteria. The global TSS maps, including further characterized asRNA candidates, putative RppH targets, and identified RBP interactomes will likely trigger similar global studies in the same or different organisms or will be used as a resource for closer examination of these features. N2 - RNA-Sequenzierung (RNA-seq) entwickelte sich in den letzten Jahren zur bevorzugten Methode für Genexpressionsanalysen und die Annotation ganzer Transkriptome. Nachdem sich erste RNA-seq-Experimente hauptsächlich mit eukaryotischen Boten-RNAs (mRNAs) beschäftigt hatten, da diese sich relativ einfach aus dem zellulären RNA-Gemisch aufreinigen lassen, war die Entwicklung von fortschrittlicheren Methoden nötig, um mikrobielle Transkriptome zu sequenzieren. Die sich daraus ergebenden RNA-seq-Daten enthüllten eine unerwartete Komplexität bakterieller Transkriptome und die Notwendigkeit der Anwendung spezifischer Analyseverfahren, welche von Tools zur Prozessierung eukaryotischer Daten häufig nicht zur Verfügung gestellt werden. Das Ziel dieser Doktorarbeit war die Entwicklung und Anwendung spezifischer Verfahren zur Datenanalyse für verschiedene RNA-seq-basierte Methoden, um Erkenntnisse bezüglich Transkription und genregulatorischer Vorgänge bei Prokaryoten zu erlangen. Die Differentielle-RNA-Sequenzierungsmethode (dRNA-seq) ermöglicht die Annotation von Transkriptionsstartpunkten (TSS), indem sie Primärtranskripte mit einem 5'-Triphosphat (5'-PPP) von prozessierten Transkripten mit einem 5'-Monophosphat (5'-P) unterscheidet. Diese Methode wurde in Kombination mit einem automatisierten TSS-Annotationstool zur Erstellung globaler Transkriptomkarten für Escherichia coli (E. coli) and Helicobacter pylori (H. pylori) verwendet. In der E. coli-Studie haben wir verschiedene Folgeanalysen durchgeführt, um ein tieferes Verständnis für die Natur und Eigenschaften der in unserer Transkriptomkarte enthaltenen Transkripte zu erlangen. Das Hauptaugenmerk lag dabei auf mutmaßlichen Antisense-RNAs (asRNAs). Diese stellen eine RNA-Klasse dar, welche vom entgegengesetzten Strang von bekannten proteinkodierenden Genen transkribiert wird, und die das Potenzial hat, entsprechende Sense-Transkripte zu regulieren. Wir stellen nicht nur eine Liste mutmaßlicher asRNAs zur Verfügung, von der einige Kandidaten durch Northern Blots validiert wurden, sondern diskutierten auch von uns untersuchte Gründe für auftretende Variation bei RNA-seq-Daten. Das Ziel der H. pylori-Studie war es, eine detaillierte Beschreibung der dRNA-seq-Methode und deren Anwendung auf einen bakteriellen Modellorganismus zur Verfügung zu stellen. Sie enthält Informationen bezüglich experimenteller Protokolle und für die Datenanalyse notwendige Schritte, zur Erstellung einer genomweiten TSS-Karte. Wir zeigen, wie die enthaltenen TSS verwendet werden können, um verschiedene Transkriptomelemente, einschließlich solcher mit regulatorischen Eigenschaften, zu identifizieren und zu analysieren. Zusätzlich diskutieren wir Probleme, welche bei der Erstellung von Sequenzierlibraries, der Verwendung von Sequenzierplattformen und bei der Datenanalyse, einschließlich manueller und automatisierter TSS-Annotation, auftreten können. Die TSS-Karten für H. pylori und E. coli, einschließlich der damit verbundenen Transkriptomdaten, haben wir in Form eines leicht zugänglichen Online-Browsers verfügbar gemacht. Desweiteren wurde eine modifizierte Version der dRNA-seq-Methode verwendet, um Transkripte zu identifizieren, welche von der RNA Pyrophosphohydrolase (RppH) in H. pylori gespalten werden. RppH initiiert den vom 5'-Ende abhängigen RNA-Abbau, indem sie das 5'-PPP von Primärtranskripten in ein 5'-P umwandelt. Ich habe eine Analysemethode entwickelt, welche Daten basierend auf unterschiedlichen Komplementär-DNA (cDNA)-Libraries verwendet, welche entweder spezifisch für Transkripte mit einem 5'-PPP oder einem 5'-P sind, oder beides enthalten, um spezifisch Transkripte zu indentifizieren, die durch RppH modifiziert werden. Um dies zu erreichen wurden der 5'-Phosphorylierungsstatus und die zelluläre Konzentration der Transkripte zwischen einer rppH-Deletionsmutante und Stämmen mit intaktem Gen verglichen. Weiterhin wurden mehrere der identifizierten, von RppH gespaltenen Transkripte durch Messung ihrer Halbwertszeit und Quantifizierung ihres 5'-Phosphorylierungsstatus bei Wildtyp- und mutierten Zellen validiert. Unsere Ergebnisse lassen auf eine wichtige Rolle von RppH bei der Genregulation in H. pylori und verwandten Organismen schließen. Zusätzlich haben wir zwei weitere RNA-seq-basierte Methoden namens RNA-Immunpräzipitation gefolgt von RNA-Sequenzierung (RIP-seq) und Quervernetzung und Immunpräzipitation gefolgt von RNA-Sequenzierung (CLIP-seq) verwendet, um Transkripte zu identifizieren, welche von Hfq und CsrA gebunden werden, zwei RNA-Bindeproteinen (RBPs), die eine wichtige Rolle bei posttranskriptionaler Regulation spielen. Zur RIP-seq-basierten Identifikation von CsrA-Binderegionen bei Campylobacter jejuni (C. jejuni) haben wir eine annotationsbasierte Analyse und zusätzlich eine eigens entwickelte Peak-Bestimmungsmethode verwendet. Beide Methoden haben die flaA mRNA, welche das Hauptflagellin kodiert, als stärksten Bindepartner identifiziert. Die Funktionale-Anreicherungsanalyse hat außerdem eine Anreicherung von Genen ergeben, welche für die Flagellenbiosynthese von Bedeutung sind. Im Vergleich zu RIP-seq ermöglicht CLIP-seq eine höhere Auflösung bei der Kartografierung von Bindestellen. Um diese Stellen zu identifizieren wurde eine Methode mit der Bezeichnung ``block-based peak calling'' entwickelt, und die daraus resultierenden Peaks wurden verwendet, um sequenz- und strukturabhängige Bedingungen zu bestimmen, die bei Salmonella für die Interaktion von Transkripten mit Hfq und CsrA notwendig sind. Insgesamt betrachtet haben die verschiedenen RNA-seq-basierten Methoden, welche in dieser Doktorarbeit beschrieben wurden, in Kombination mit den damit verbundenen Analysepipelines, unser Verständnis des transkriptionellen Repertoires und der Art und Weise, wie posttranskriptionelle Regulation bei Bakterien abläuft, erweitert. Die globalen TSS-Karten, einschließlich der charakterisierten asRNA-Kandidaten, die mutmaßlich von RppH gespaltenen Transkripte und die identifizierten RBP-Interaktome werden höchstwahrscheinlich zur Durchführung ähnlicher Studien bei den gleichen oder anderen Organismen führen, oder können als Grundlage für eine detailliertere Untersuchung dieser Elemente verwendet werden. KW - Bakterien KW - RNA sequencing KW - Bioinformatics KW - Bacteria KW - Transcriptome KW - Post-transcriptional regulation KW - RNA-binding proteins KW - Sequenzanalyse KW - RNS Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-166108 ER -