TY  - THES
A1  - Horn, Hannes
T1  - Analysis and interpretation of (meta-)genomic data from host-associated microorganisms
T1  - Analyse und Interpretation von (meta-)genomischen Daten aus Wirt-assoziierten Mikroorganismen
N2  - Host–microbe interactions are the key to understand why and how microbes inhabit specific environments. With the scientific fields of microbial genomics and metagenomics, evolving on an unprecedented scale, one is able to gain insights in these interactions on a molecular and ecological level. The goal of this PhD thesis was to make (meta–)genomic data accessible, integrate it in a comparative manner and to gain comprehensive taxonomic and functional insights into bacterial strains and communities derived from two different environments: the phyllosphere of Arabidopsis thaliana and the mesohyl interior of marine sponges.

This thesis focused first on the de novo assembly of bacterial genomes. A 5–step protocol was developed, each step including a quality control. The examination of different assembly software in a comparative way identified SPAdes as most suitable. The protocol enables the user to chose the best tailored assembly. Contamination issues were solved by an initial filtering of the data and methods normally used for the binning of metagenomic datasets. This step is missed in many published assembly pipelines. The described protocol offers assemblies of high quality ready for downstream analysis.

Subsequently, assemblies generated with the developed protocol were annotated and explored
in terms of their function. In a first study, the genome of a phyllosphere bacterium, Williamsia sp. ARP1, was analyzed, offering many adaptions to the leaf habitat: it can deal with temperature shifts, react to oxygen species, produces mycosporins as protection against UV–light, and is able to uptake photosynthates. Further, its taxonomic position within the Actinomycetales was infered from 16S rRNA and comparative genomics showing the close relation between the genera Williamsia and Gordonia.

In a second study, six sponge–derived actinomycete genomes were investigated for secondary metabolism. By use of state–of–the–art software, these strains exhibited numerous gene clusters, mostly linked to polykethide synthases, non–ribosomal peptide synthesis, terpenes, fatty acids and saccharides. Subsequent predictions on these clusters offered a great variety of possible produced compounds with antibiotic, antifungal or anti–cancer activity. These analysis highlight the potential for the synthesis of natural products and the use of genomic data as screening toolkit.

In a last study, three sponge–derived and one seawater metagenomes were functionally compared. Different signatures regarding the microbial composition and GC–distribution were observed between the two environments. With a focus on bacerial defense systems, the data indicates a pronounced repertoire of sponge associated bacteria for bacterial defense systems, in particular, Clustered Regularly Interspaced Short Palindromic Repeats, restriction modification system, DNA phosphorothioation and phage growth limitation. In addition, characterizing genes for secondary metabolite cluster differed between sponge and seawater microbiomes. Moreover, a variety of Type I polyketide synthases were only found within the sponge microbiomes. With that, metagenomics are shown to be a useful tool for the screening of secondary metabolite genes. Furthermore, enriched defense systems are highlighted as feature of sponge-associated microbes and marks them as a selective trait.
N2  - Mikroben–Wirt Interaktionen sind der Schlüssel, um zu verstehen “Wie?” und “Warum?” Mikroben in bestimmten Umgebungen vorkommen. Mithilfe von Genomik und Metagenomik lassen sich Einblicke auf dem molekularen sowie ökolgischen Level gewinnen. Ziel dieser Arbeit war es, diese Daten zugänglich zu machen und zu vergleichen, um Erkenntnisse auf taxonomischer und funktionaler Ebene in bakterielle Isolate und bakterielle Konsortien zu erhalten. Dabei wurden Daten aus zwei verschiedenen Umgebungen erhoben: der Phyllosphäre von Arabidopsis thaliana und aus der Mesohyl–Matrix mariner Schwämme.

Das Ziel war zunächst, bakterieller Genome denovo zu assemblieren. Dazu wurde ein Protokoll, bestehend aus 5 Schritten, entwickelt. Durch Verwendung verschiedener Soft- ware zum Assemblieren konnte SPAdes als am besten geeignet für die gegebenen Daten herausgearbeitet werden. Durch anfängliches Filtern der Daten konnte erste Kontamina- tion entfernt werden. Durch das Anwenden weiterer Methoden, welche ursprünglich für metagenomische Datensätze entwickelt wurden, konnten weitere Kontaminationen erkannt und von den “echten” Daten getrennt werden. Ein Schritt, welcher in den meisten pub- lizierten Assembly–Pipelines fehlt. Das Protokoll ermöglicht das Erstellen hochqualitativer Assemblies, welche zur weiteren Analyse nicht weiter aufbereitet werden müssen.
Nachfolgend wurden die generierten Assemblies annotiert. Das Genom von William- sia sp. ARP1 wurde untersucht und durch dessen Interpretation konnten viele Anpassungen an die Existenz in der Phyllosphäre gezeigt werden: Anpassung an Termperaturveränderun- gen, Produktion von Mycosporinen als Schutz vor UV–Strahlung und die Möglichkeit, von der Pflanze durch Photosynthese hergestellte Substanzen aufzunehmen. Seine taxonomische Position wurde aufgrund von 16S rRNA sowie vergleichende Genomik bestimmt. Dadurch konnte eine nahe Verwandtschaft zwischen den Gattungen Williamsia und Gordonia gezeigt werden.

In einer weiteren Studie wurden sechs Actinomyceten–Genome, isoliert aus Schwämmen, hinsichtlich ihres Sekundärmetabolismus untersucht. Mihilfe moderner Software konnten in zahlreiche Gen–Cluster identifiziert werden. Zumeist zeigten diese eine Zugehörigkeit zu Polyketidsynthasen, Nichtribosomalen Peptidsynthasen, Terpenen, Fettsäuren oder Sac- chariden. Durch eine tiefere Analyse konnten die Cluster mit chemischen Verbindungen assoziiert werden, welche antibakterielle oder fungizide Eigenschaften besitzen.

In der letzten Untersuchung wurden Metagenome von drei Schwämmen sowie Meerwasser auf funktioneller Ebene verglichen. Beobachtet wurden Unterschiede in deren mikrobiellen Konsortien und GC–Gehalt. Schwamm–assoziierte Bakterien zeigten ein ausgeprägtes Inventar an Verteidigungsmechanismen gegenüber deren Vertretern aus dem Meerwasser. Dies beinhaltete vor allem: Clustered Regularly Interspaced Short Palindromic Repeats, das Restriktions-Modifikationssystem, DNA Phosphorothioation, oder Gene, welche das Wachstum von Phagen hemmen können. Gene für Sekundärmetabolite waren zwischen Schwamm– und Meerwasser–Metagenomen unterschiedlich stark ausgeprägt. So konnten Typ I Polyketidsynthasen ausschließlich in den Schwamm–Metagenomen gefunden werden. Dies zeigt, dass metagenomische Daten ebenso wie genomische Daten zur Untersuchung des Sekundärmetabolismus genutzt werden können. Des Weiteren zeigt die Anhäufung an Verteidigungsmechanismen eine Anpassung von Schwamm–assoziierten Mikroben an ihre Umgebung und ist ein Hinweis auf deren mögliche selektive Eigenschaft.
KW  - Bakterien
KW  - Meeresschwämme
KW  - Metagenom
KW  - Phyllosphäre
KW  - Ackerschmalwand
KW  - Metagenomics
KW  - Genomics
KW  - Phyllosphere
KW  - Sponges
KW  - Bacteria
KW  - Deep sequencing
KW  - Arabidopsis thaliana
KW  - Bioinformatics
Y1  - 2017
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-152035
ER  - 
TY  - THES
A1  - Slaby, Beate Magdalena
T1  - Exploring the microbiome of the Mediterranean sponge \(Aplysina\) \(aerophoba\) by single-cell and metagenomics
T1  - Untersuchungen am Mikrobiom des Mittelmeerschwamms \(Aplysina\) \(aerophoba\) mittels Einzelzell- und Metagenomik
N2  - Sponges (phylum Porifera) are evolutionary ancient, sessile filter-feeders that harbor a largely diverse microbial community within their internal mesohyl matrix. Throughout this thesis project, I aimed at exploring the adaptations of these symbionts to life within their sponge host by sequencing and analyzing the genomes of a variety of bacteria from the microbiome of the Mediterranean sponge Aplysina aerophoba. Employed methods were fluorescence-activated cell sorting with subsequent multiple displacement amplification and single-cell / ‘mini-metagenome’ sequencing, and metagenomic sequencing followed by differential coverage binning. These two main approaches both aimed at obtaining genome sequences of bacterial symbionts of A. aerophoba, that were then compared to each other and to references from other environments, to gain information on adaptations to the host sponge environment and on possible interactions with the host and within the microbial community.
Cyanobacteria are frequent members of the sponge microbial community. My ‘mini-metagenome’ sequencing project delivered three draft genomes of “Candidatus Synechococcus spongiarum,” the cyanobacterial symbiont of A. aerophoba and many more sponges inhabiting the photic zone. The most complete of these genomes was compared to other clades of this symbiont and to closely related free-living cyanobacterial references in a collaborative project published in Burgsdorf I*, Slaby BM* et al. (2015; *shared first authorship). Although the four clades of “Ca. Synechococcus spongiarum” from the four sponge species A. aerophoba, Ircinia variabilis, Theonella swinhoei, and Carteriospongia foliascens were approximately 99% identical on the level of 16S rRNA gene sequences, they greatly differed on the genomic level. Not only the genome sizes were different from clade to clade, but also the gene content and a number of features including proteins containing the eukaryotic-type domains leucine-rich repeats or tetratricopeptide repeats. On the other hand, the four clades shared a number of features such as ankyrin repeat domain-containing proteins that seemed to be conserved also among other microbial phyla in different sponge hosts and from different geographic locations. A possible novel mechanism for host phagocytosis evasion and phage resistance by means of an altered O antigen of the lipopolysaccharide was identified.
To test previous hypotheses on adaptations of sponge-associated bacteria on a broader spectrum of the microbiome of A. aerophoba while also taking a step forward in methodology, I developed a bioinformatic pipeline to combine metagenomic Illumina short-read sequencing data with PacBio long-read data. At the beginning of this project, no pipelines to combine short-read and long-read data for metagenomics were published, and at time of writing, there are still no projects published with a comparable aim of un-targeted assembly, binning and analysis of a metagenome. I tried a variety of assembly programs and settings on a simulated test dataset reflecting the properties of the real metagenomic data. The developed assembly pipeline improved not only the overall assembly statistics, but also the quality of the binned genomes, which was evaluated by comparison to the originally published genome assemblies.
The microbiome of A. aerophoba was studied from various angles in the recent years, but only genomes of the candidate phylum Poribacteria and the cyanobacterial sequences from my above-described project have been published to date. By applying my newly developed assembly pipeline to a metagenomic dataset of A. aerophoba consisting of a PacBio long-read dataset and six Illumina short-read datasets optimized for subsequent differential coverage binning, I aimed at sequencing a larger number and greater diversity of symbionts. The results of this project are currently in review by The ISME Journal. The complementation of Illumina short-read with PacBio long-read sequencing data for binning of this highly complex metagenome greatly improved the overall assembly statistics and improved the quality of the binned genomes. Thirty-seven genomes from 13 bacterial phyla and candidate phyla were binned representing the most prominent members of the microbiome of A. aerophoba. A statistical comparison revealed an enrichment of genes involved in restriction modification and toxin-antitoxin systems in most symbiont genomes over selected reference genomes. Both are defense features against incoming foreign DNA, which may be important for sponge symbionts due to the sponge’s filtration and phagocytosis activity that exposes the symbionts to high levels of free DNA. Also host colonization and matrix utilization features were significantly enriched. Due to the diversity of the binned symbiont genomes, a within-symbionts genome comparison was possible, that revealed three guilds of symbionts characterized by i) nutritional specialization on the metabolization of carnitine, ii) specialization on sulfated polysaccharides, and iii) apparent nutritional generalism. Both carnitine and sulfated polysaccharides are abundant in the sponge extracellular matrix and therefore available to the sponge symbionts as substrates. In summary, the genomes of the diverse community of symbionts in A. aerophoba were united in their defense features, but specialized regarding their nutritional preferences.
N2  - Schwämme (Phylum Porifera) sind evolutionär alte, sessile Filtrierer, die eine äußerst vielfältige mikrobielle Gemeinschaft in ihrer internen Mesohylmatrix beherbergen. Das Ziel meiner Doktorarbeit war es, die Anpassungen dieser Symbionten an das Leben in ihrem Schwammwirt zu erforschen. Dazu habe ich die Genome einer Vielzahl von Bakterien aus dem Mikrobiom des Mittelmeer-Schwammes Aplysina aerophoba sequenziert und analysiert. Meine angewandten Methoden waren die fluoreszenzaktivierte Zellsortierung mit anschließender so genannter „multiple displacement amplification“ und Einzelzell- / „Mini-Metagenom“-Sequenzierung und metagenomischer Sequenzierung gefolgt von „differential coverage binning“. Diese beiden Ansätze zielten darauf ab, Genomsequenzen von bakteriellen Symbionten von A. aerophoba zu erhalten, die dann sowohl miteinander, als auch mit Referenzen aus anderen Habitaten verglichen wurden. So sollten Informationen gewonnen werden über Anpassungen an ein Leben im Wirtsschwamm und über mögliche Interaktionen mit dem Wirt und innerhalb der mikrobiellen Gemeinschaft.
Cyanobakterien sind häufig Mitglieder der bakteriellen Gemeinschaft in Schwämmen. Mein "Mini-Metagenom"-Sequenzierprojekt lieferte drei Genom-Entwürfe von „Candidatus Synechococcus spongiarum,“ dem cyanobakteriellen Symbionten von A. aerophoba und vieler weiterer Schwämme, die die photische Zone bewohnen. Das vollständigste dieser Genome wurden mit anderen Kladen dieses Symbionten verglichen und mit nah verwandten, freien lebenden Cyanobakterien-Referenzen in Burgsdorf I *, Slaby BM * et al. (2015; * geteilte Erstautorenschaft). Obwohl die vier Kladen von „Ca. Synechococcus spongiarum“ aus den vier Schwammarten A. aerophoba, Ircinia variabilis, Theonella swinhoei und Carteriospongia foliascens auf der Ebene der 16S-rRNA-Gensequenzen zu etwa 99% identisch waren, unterschieden sie sich deutlich auf Genom-Ebene. Nicht nur die Genomgrößen waren von Klade zu Klade verschieden, sondern auch der Gengehalt und eine Reihe von Merkmalen, einschließlich Proteinen mit genannten „eukaryotic-like domains,“ leucinreiche „repeats“ oder Tetratricopeptid-„repeats“. Auf der anderen Seite teilten die vier Kladen eine Reihe von Merkmalen wie Ankyrin-„repeat“-Domänen-haltige Proteine, die auch in anderen Phyla von Schwammsymbionten in verschiedenen Wirtsschwämmen und aus verschiedenen geografischen Orten konserviert zu sein schienen. Ein möglicher neuartiger Mechanismus zur Phagozytose-Vermeidung und zur Phagenresistenz mittels eines veränderten O-Antigens des Lipopolysaccharids wurde identifiziert.
Um vorherige Hypothesen über die Anpassung von Schwamm-assoziierten Bakterien auf ein breiteres Spektrum des Mikrobioms von A. aerophoba zu testen und gleichzeitig in der Methodik voran zu schreiten, entwickelte ich einen bioinformatischen Arbeitsablauf, um metagenomische Illumina-„short-read“-Sequenzdaten mit PacBio-„long-reads“ zu kombinieren. Zu Beginn dieses Projektes gab es keine veröffentlichte Methodik zur Verknüpfung von „short-reads“ und „long-reads“ für die Metagenomik, und auch jetzt gibt es keine veröffentlichten Projekte mit einem vergleichbaren Ziel von nicht-gezieltem „Assembly“, „Binning“ und Analyse eines Metagenoms. Ich habe eine Auswahl von „Assembly“-Programmen und Einstellungen auf einem simulierten Testdatensatz getestet, der die Eigenschaften der realen metagenomischen Daten widerspiegelt. Die entwickelte „Assembly“-Methode verbesserte nicht nur die Gesamtstatistik, sondern auch die Qualität der einzelnen, „gebinnten“ Genome, die durch Vergleich zu den ursprünglich veröffentlichten Genom-Sequenzen evaluiert wurde.
Das Mikrobiom von A. aerophoba wurde in den letzten Jahren aus verschiedenen Blickwinkeln untersucht, aber nur Genome des Candidatus-Phylum Poribakterien und die Cyanobakteriensequenzen aus meinem oben beschriebenen Projekt wurden bisher veröffentlicht. Durch die Anwendung meiner neu entwickelten „Assembly“-Methodik auf einen metagenomischen Datensatz von A. aerophoba bestehend aus einem PacBio-„long-read“-Datensatz und sechs Illumina-„short-read“-Datensätzen, die für das anschließende „differential coverage binning“ optimiert waren, zielte ich darauf ab, eine größere Anzahl und Vielfalt von Symbionten zu sequenzieren. Die Ergebnisse dieses Projektes sind derzeit bei The ISME Journal in Review. Die Komplementierung von Illumina „short-read“ mit PacBio „long-read“-Sequenzdaten für das „binning“ dieses hochkomplexen Metagenoms hat die Gesamt-„assembly“-Statistik sowie die Qualität der „gebinnten“ Genome deutlich verbessert. Siebenunddreißig Genome aus 13 Bakterienphyla und Candidatus-Phyla wurden „gebinnt“, die die prominentesten Mitglieder des Mikrobioms von A. aerophoba darstellten. Ein statistischer Vergleich zeigte eine Anreicherung von Genen, die mit Restriktionsmodifikationen und Toxin-Antitoxin-Systemen zusammenhängen, in den meisten Symbionten-Genomen im Vergleich zu ausgewählten Referenzgenomen. Beides sind Mechanismen zur Verteidigung gegen eindringende Fremd-DNA, die für Schwamm-Symbionten aufgrund der Schwamm-Filtration und Phagozytose-Aktivität wichtig sein können, die die Symbionten hohen Konzentrationen von freier DNA aussetzen. Auch mögliche Wirtskolonisations- und Matrixnutzungsmechanismen waren signifikant angereichert. Wegen der Vielfalt der „gebinnten“ Symbionten-Genome war ein Genom-Vergleich innerhalb der Symbionten möglich, der drei Gilden von Symbionten zum Vorschein brachte, die gekennzeichnet waren durch i) Ernährungsspezialisierung auf die Metabolisierung von Carnitin, ii) Spezialisierung auf sulfatierte Polysaccharide und iii) scheinbaren Nahrungs-Generalismus. Sowohl Carnitin als auch sulfatierte Polysaccharide sind in der extrazellulären Schwammmatrix reichlich vorhanden und stehen so den Schwammsymbionten als Substrat zur Verfügung. Die Genome der diversen Symbionten-Gemeinschaft in A. aerophoba waren in ihren Verteidigungsmechanismen vereint, aber spezialisiert hinsichtlich ihrer Ernährung.
KW  - Metagenom
KW  - metagenomics
KW  - single-cell genomics
KW  - sponge microbiome
KW  - differential coverage binning
KW  - PacBio sequencing
KW  - Illumina HiSeq
KW  - hybrid assembly
KW  - Aplysina aerophoba
KW  - Mikroorganismus
Y1  - 2017
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-151869
ER  - 
TY  - THES
A1  - Costea, Paul Igor
T1  - Stratification and variation of the human gut microbiota
T1  - Stratifikation und Variation des menschlichen Darmmikrobioms
N2  - The microbial communities that live inside the human gastrointestinal tract -the human gut
microbiome- are important for host health and wellbeing. Characterizing this new “organ”,
made up of as many cells as the human body itself, has recently become possible through
technological advances. Metagenomics, the high-throughput sequencing of DNA directly from
microbial communities, enables us to take genomic snapshots of thousands of microbes living
together in this complex ecosystem, without the need for isolating and growing them.
Quantifying the composition of the human gut microbiome allows us to investigate its
properties and connect it to host physiology and disease. The wealth of such connections was
unexpected and is probably still underestimated. Due to the fact that most of our dietary as well
as medicinal intake affects the microbiome and that the microbiome itself interacts with our
immune system through a multitude of pathways, many mechanisms have been proposed to
explain the observed correlations, though most have yet to be understood in depth.
An obvious prerequisite to characterizing the microbiome and its interactions with the host is
the accurate quantification of its composition, i.e. determining which microbes are present and
in what numbers they occur. Historically, standard practices have existed for sample handling,
DNA extraction and data analysis for many years. However, these were generally developed for
single microbe cultures and it is not always feasible to implement them in large scale
metagenomic studies. Partly because of this and partly because of the excitement that new
technology brings about, the first metagenomic studies each took the liberty to define their own
approach and protocols. From early meta-analysis of these studies it became clear that the
differences in sample handling, as well as differences in computational approaches, made
comparisons across studies very difficult. This restricts our ability to cross-validate findings of
individual studies and to pool samples from larger cohorts. To address the pressing need for
standardization, we undertook an extensive comparison of 21 different DNA extraction methods
as well as a series of other sample manipulations that affect quantification. We developed a
number of criteria for determining the measurement quality in the absence of a mock
community and used these to propose best practices for sampling, DNA extraction and library
preparation. If these were to be accepted as standards in the field, it would greatly improve
comparability across studies, which would dramatically increase the power of our inferences
and our ability to draw general conclusions about the microbiome.
Most metagenomics studies involve comparisons between microbial communities, for example
between fecal samples from cases and controls. A multitude of approaches have been proposed
to calculate community dissimilarities (beta diversity) and they are often combined with
various preprocessing techniques. Direct metagenomics quantification usually counts
sequencing reads mapped to specific taxonomic units, which can be species, genera, etc. Due to
technology-inherent differences in sampling depth, normalizing counts is necessary, for
instance by dividing each count by the sum of all counts in a sample (i.e. total sum scaling), or by
subsampling. To derive a single value for community (dis-)similarity, multiple distance
measures have been proposed. Although it is theoretically difficult to benchmark these
approaches, we developed a biologically motivated framework in which distance measures can
be evaluated. This highlights the importance of data transformations and their impact on the
measured distances.
Building on our experience with accurate abundance estimation and data preprocessing
techniques, we can now try and understand some of the basic properties of microbial
communities. In 2011, it was proposed that the space of genus level variation of the human gut
microbial community is structured into three basic types, termed enterotypes. These were
described in a multi-country cohort, so as to be independent of geography, age and other host
properties. Operationally defined through a clustering approach, they are “densely populated
areas in a multidimensional space of community composition”(source) and were proposed as a
general stratifier for the human population. Later studies that applied this concept to other
datasets raised concerns about the optimum number of clusters and robustness of the
clustering approach. This heralded a long standing debate about the existence of structure and
the best ways to determine and capture it. Here, we reconsider the concept of enterotypes, in
the context of the vastly increased amounts of available data. We propose a refined framework
in which the different types should be thought of as weak attractors in compositional space and
we try to implement an approach to determining which attractor a sample is closest to. To this
end, we train a classifier on a reference dataset to assign membership to new samples. This way,
enterotypes assignment is no longer dataset dependent and effects due to biased sampling are
minimized. Using a model in which we assume the existence of three enterotypes characterized
by the same driver genera, as originally postulated, we show the relevance of this stratification
and propose it to be used in a clinical setting as a potential marker for disease development.
Moreover, we believe that these attractors underline different rules of community assembly and
we recommend they be accounted for when analyzing gut microbiome samples.
While enterotypes describe structure in the community at genus level, metagenomic sequencing
can in principle achieve single-nucleotide resolution, allowing us to identify single nucleotide
polymorphisms (SNPs) and other genomic variants in the gut microbiome. Analysis
methodology for this level of resolution has only recently been developed and little exploration
has been done to date. Assessing SNPs in a large, multinational cohort, we discovered that the
landscape of genomic variation seems highly structured even beyond species resolution,
indicating that clearly distinguishable subspecies are prevalent among gut microbes. In several
cases, these subspecies exhibit geo-stratification, with some subspecies only found in the
Chinese population. Generally however, they present only minor dispersion limitations and are
seen across most of our study populations. Within one individual, one subspecies is commonly
found to dominate and only rarely are several subspecies observed to co-occur in the same
ecosystem. Analysis of longitudinal data indicates that the dominant subspecies remains stable
over periods of more than three years. When interrogating their functional properties we find
many differences, with specific ones appearing relevant to the host. For example, we identify a
subspecies of E. rectale that is lacking the flagellum operon and find its presence to be
significantly associated with lower body mass index and lower insulin resistance of their hosts;
it also correlates with higher microbial community diversity. These associations could not be
seen at the species level (where multiple subspecies are convoluted), which illustrates the
importance of this increased resolution for a more comprehensive understanding of microbial
interactions within the microbiome and with the host.
Taken together, our results provide a rigorous basis for performing comparative metagenomics
of the human gut, encompassing recommendations for both experimental sample processing
and computational analysis. We furthermore refine the concept of community stratification into
enterotypes, develop a reference-based approach for enterotype assignment and provide
compelling evidence for their relevance. Lastly, by harnessing the full resolution of
metagenomics, we discover a highly structured genomic variation landscape below the
microbial species level and identify common subspecies of the human gut microbiome. By
developing these high-precision metagenomics analysis tools, we thus hope to contribute to a
greatly improved understanding of the properties and dynamics of the human gut microbiome.
N2  - Die mikrobiellen Gemeinschaften innerhalb des menschlichen Darmtrakts – das menschliche
Darm-Mikrobiom - sind wichtig für das Wohlbefinden und die Gesundheit des Wirts. Die Charakterisierung dieses neuen “Organs”, welches aus ähnlich vielen Zellen besteht wie der menschliche Körper, ist in jüngster Zeit durch technologische Fortschritte möglich geworden. Die Metagenomik, die direkte Hochdurchsatz-Sequenzierung mikrobieller DNA, ermöglicht die Aufnahme “genomischer Schnappschüsse” tausender verschiedener, in einem komplexen Ökosystem zusammenlebender  Bakterien, ohne dafür auf deren Isolierung und Wachstum angewiesen zu sein. Die Quantifizierung des menschlichen Mikrobioms erlaubt es uns, seine Eigenschaften zu untersuchen und Verbindungen zu Wirtsphysiologie und -krankheiten zu knüpfen. Der Reichtum dieser Informationen ist unerwartet hoch und wahrscheinlich noch immer unterbewertet. Aufgrund der Tatsache, dass der Großteil unserer Ernährung und unseres Medikamentenkonsums unser Mikrobiom, welches wiederum selbst über verschiedene Arten mit unserem Immunsystem interagiert, beeinflusst, wurden viele Mechanismen vorgeschlagen, um die beobachteten Korrelationen zu erklären. Die meisten davon sind jedoch noch nicht vollständig verstanden.

Eine offensichtliche Komponente zur Charakterisierung des Mikrobioms und dessen Interaktionen mit dem Wirt ist eine akkurate Quantifizierung seiner genauen Zusammensetzung, womit sowohl die Anwesenheit von bestimmten Bakterien als auch deren Anzahl gemeint ist. Obwohl etablierte Standardprozeduren zur Probenbehandlung, DNA- Extrahierung und Datenanalyse existieren, sind sie nicht immer für metagenomische Studien anwendbar, da sie für isolierte Bakterienkulturen entwickelt  worden. Deswegen und auch wegen der Begeisterung, die neuartige Technologien mit sich bringen, nahmen sich die ersten metagenomischen Studien jeweils die Freiheit, ihre eigenen Protokolle und Herangehensweisen zu definieren. Die Metaanalyse dieser Studien zeigte, dass Unterschiede sowohl in der Probenbehandlung als auch in der statistischen Auswertung den Vergleich zwischen Studien sehr schwierig machen. Das wiederum beschneidet unsere Fähigkeit, Entdeckungen zu bestätigen und Daten über Studien hinweg zu kombinieren. Um die zwingend notwendige Standardisierung voranzutreiben haben wir einen umfassenden Vergleich von 21 verschiedenen DNA-Extraktionsmethoden sowie verschiedener weiterer Probenbehandlungen, welche Quantifizierungen beeinflussen, vorgenommen. Wir haben eine Reihe von Kriterien entwickelt, um die Messqualität in Abwesenheit von Mock-Kontrollen zu bestimmen und schlagen anhand dieser Methoden für Probenbeschaffung, DNA-Extraktion und Library- Generierung optimale Verfahren vor. Wenn diese als Standard akzeptiert werden, würde das eine stark verbesserte Vergleichbarkeit zwischen Studien ermöglichen und damit sowohl einen extremen Zuwachs an statistischer Power als auch unserer Fähigkeit, generelle Schlüsse über das Mikrobiom zu ziehen, zur Folge haben.

Die meisten metagenomischen Studien teilen ihre Datensätze auf um Vergleiche anzustellen, z.B. zwischen Stuhlproben gesunder und erkrankter Menschen. Eine Vielzahl verschiedener Ansätze, welche wiederum oft mit verschiedenen Datenvorbehandlungen kombiniert werden, wurden vorgeschlagen, um Dissimilarität zwischen  Gemeinschaften (Beta-Diversität) zu berechnen. Um metagenomische Daten auf Spezies-, Genus- und höheren Ebenen zu quantifizieren werden üblicherweise reads auf Referenzgenome bestimmter taxonomischer Einheiten aligniert und gezählt. Aufgrund technologieabhängiger Unterschiede in Sequenziertiefe müssen reads normalisiert werden, z.B. indem man alle counts durch die Gesamtanzahl der counts einer Sequenzierung teilt (total sum scaling), oder durch subsampling. Für die Messung der Gemeinschafts(dis)similarität wurden viele Distanzmaße vorgeschlagen.
Da  es  schwierig  ist  diese  Ansätze  theoretisch  zu  vergleichen,  haben  wir  ein  biologisch
 

motiviertes Konzept entwickelt, mit dem man Distanzmaße evaluieren kann. Dies unterstreicht die Wichtigkeit der Datentransformation und dessen Einwirkung auf Distanzmaße.

Aufbauend auf unserer Erfahrung mit Häufigkeitsabschätzungen und Techniken zur Datenvorbehandlung können wir nun versuchen, grundlegende Eigenschaften mikrobieller Gemeinschaften zu verstehen. 2011 wurde vorgeschlagen, dass sich die Variation auf Genusebene im menschlichen Darm auf drei grundlegende Typen beschränkt, welche Enterotypen getauft wurden. Diese wurden in Datensätzen verschiedener Länder als unabhängig von Herkunft, Alter und anderer Wirtseigenschaften beschrieben. Die Enterotypen sind durch einen Cluster-Ansatz als „dicht besiedelte Bereiche in einem multidimensionalen Raum der Gemeinschaftszusammensetzung“ definiert und wurden als grundlegende Stratifikatoren für die menschlichen Population vorgeschlagen. Spätere Studien, welche dieses Konzept auf andere Datensätze anwandten, erhoben Zweifel bezüglich der optimalen Anzahl an Clustern und an der generellen Robustheit des Ansatzes. Dies leitete erneut eine langanhaltende Debate über die  Existenz von Strukturen und die besten Wege, diese zu bestimmen und einzufangen, ein. Hier überdenken wir, in Anbetracht der stark gestiegenen Anzahl an verfügbaren Daten, das Enterotypen-Konzept. Wir schlagen ein überarbeitetes Konzept vor, in welchem die verschiedenen Enterotypen als schwache Attraktoren im multidimensionalen Raum verstanden werden und implementieren einen Ansatz zur Berechnung des Attraktors, der dem Datensatz am ähnlichsten ist. Dafür trainieren wir einen Klassifizierer auf einen Referenz- Datensatz, um neue Datensätze zuzuordnen. Damit ist Enterotypisierung nicht mehr datensatzabhängig und der Effekt von sampling bias ist minimiert. Indem wir ein Modell nutzen für das wir die Existenz dreier Enterotypen (definiert durch die selben Genera wie ursprünglich postuliert) annehmen, zeigen wir die Relevanz dieser Stratifikation und schlagen es in einem klinischen Zusammenhang als potentiellen Marker für Krankheitsfortschritt vor. Außerdem glauben wir, dass diese Attraktoren verschiedene Regeln mikrobieller Zusammensetzung widerspiegeln und schlagen vor, sie bei der Analyse von mikrobiellen Daten zu berücksichtigen.

Während Enterotypen Struktur in der Gemeinschaft auf Genusebene beschreiben, kann metagenomische Sequenzierung prinzipiell Auflösung auf Nukleotidebene erreichen, womit single nucleotide polymorphisms (SNPs) und andere genomische Variationen im Darm- Mikrobiom identifiziert werden können. Analysemethoden für dieses Auflösungsniveau wurden erst kürzlich entwickelt und bis heute wurden diese erst wenig erforscht. Wir zeigen, dass die Landschaft an genomischer Variation von SNPs in einer großen, multinationalen Kohorte sogar über die Speziesebene hinaus geht und hochgradig strukturiert ist, was das Vorkommen klar abgrenzbarer Subspezies unter Darmmikroben suggeriert. In mehreren Fällen zeigen diese Subspezies geographische Stratifikation, wobei einige Subspezies nur in chinesischen Populationen vorkommen. Im Allgemein zeigen Sie jedoch nur eine geringfügige Beschränkung der Dispersion und sind in der Mehrzahl der Populationen vorhanden. Innerhalb eines Individuums dominiert häufig eine bestimmte Subspezies, nur selten dominieren verschieden gemeinsam im gleichen Ökosystem. Eine Analyse von Zeitreihenexperimenten deutet darauf hin, dass die dominante Subspezies über Zeiträume von mehr als drei Jahren stabil bleibt. Wenn man ihre funktionalen Eigenschaften untersucht findet man viele Unterschiede, von denen bestimmte relevant für den Wirt erscheinen. Zum Beispiel identifizieren wir eine Subspezies von E. rectale, welcher das Flagellum-Operon fehlt, die signifikant assoziiert ist mit geringerem BMI und geringerer Insulinresistenz ihres Wirts; sie korreliert zudem mit höherer mikrobieller Diversität. Diese Assoziationen konnten auf Speziesebene nicht gesehen werden (auf der mehrere Subspezies überlagert sind), was die Wichtigkeit dieser erhöhten Auflösung für ein umfassenderes Verständnis mikrobieller Interaktionen innerhalb des Mikrobioms und mit dem Wirt illustriert.
 
Zusammenfassend   bieten  unsere  Ergebnisse  eine  präzise   Grundlage  für   vergleichende
Metagenomik des  menschlichen Darms, einschließlich Empfehlungen über experimentelles Sampling und statistische Analysen. Weiterhin verfeinern wir das Konzept der Enterotypen- Stratifikation in Gemeinschaften, entwickeln referenzbasierte Ansätze für Enterotypen- Zuordnung und bieten überzeugende Beweise für ihre Relevanz. Indem wir die volle Auflösung metagenomischer Sequenzierungen nutzen entdecken wir eine Landschaft hochgradig strukturierter genomischer Variation  unterhalb  der Speziesebene und identifizieren gemeinsame Subspezies des menschlichen Darm-Mikrobioms. Durch die Entwicklung dieser hochpräzisen  metagenomischen  Untersuchungsansätze  tragen  wir  zu  einem  verbesserten
KW  - metagenomics
KW  - microbiology
KW  - Mensch
KW  - Darmflora
KW  - Metagenom
Y1  - 2016
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-139649
ER  - 
TY  - THES
A1  - Zhu, Ana Cheng
T1  - Metagenomic analysis of genetic variation in human gut microbial species
T1  - Metagenomische Analysen der genetischen Variationen in menschlichen Darmbakterien
N2  - Microbial species (bacteria and archaea) in the gut are important for human health in various ways. Not only does the species composition vary considerably within the human population, but each individual also appears to have its own strains of a given species. While it is known from studies of bacterial pan-genomes, that genetic variation between strains can differ considerably, such as in Escherichia coli, the extent of genetic variation of strains for abundant gut species has not been surveyed in a natural habitat. This is mainly due to the fact that most of these species cannot be cultured in the laboratory. Genetic variation can range from microscale genomic rearrangements such as small nucleotide polymorphism (SNP) to macroscale large genomic rearrangements like structural variations. Metagenomics offers an alternative solution to study genetic variation in prokaryotes, as it involves DNA sequencing of the whole community directly from the environment. However, most metagenomic studies to date only focus on variation in gene abundance and hence are not able to characterize genetic variation (in terms of presence or absence of SNPs and genes) of gut microbial strains of individuals.
The aim of my doctorate studies was therefore to study the extent of genetic variation in the genomic sequence of gut prokaryotic species and its phenotypic effects based on: (1) the impact of SNP variation in gut bacterial species, by focusing on genes under selective pressure and (2) the gene content variation (as a proxy for structural variation) and their effect on microbial species and the phenotypic traits of their human host.
In the first part of my doctorate studies, I was involved in a project in which we created a catalogue of 10.3 million SNPs in gut prokaryotic species, based on metagenomes. I used this to perform the first SNP-based comparative study of prokaryotic species evolution in a natural habitat. Here, I found that strains of gut microbial species in different individuals evolve at more similar rates than the strains within an individual. In addition, I found that gene evolution can be uncoupled from the evolution of its originating species, and that this could be related to selective pressure such as diet, exemplified by galactokinase gene (galK). Despite the individuality (i.e. uniqueness of each individual within the studied metagenomic dataset) in the SNP profile of the gut microbiota that we found, for most cases it is not possible to link SNPs with phenotypic differences. For this reason I also used gene content as a proxy to study structural variation in metagenomes.
In the second part of my doctorate studies, I developed a methodology to characterize the variability of gene content in gut bacterial species, using metagenomes. My approach is based on gene deletions, and was applied to abundant species (demonstrated using a set of 11 species). The method is sufficiently robust as it captures a similar range of gene content variability as has been detected in completely sequenced genomes. Using this procedure I found individuals differ by an average of 13% in their gene content of gut bacterial strains within the same species. Interestingly no two individuals shared the same gene content across bacterial species. However, this variation corresponds to a lower limit, as it is only accounts for gene deletion and not insertions. This large variation in the gene content of gut strain was found to affect important functions, such as polysaccharide utilization loci (PULs) and capsular polysaccharide synthesis (CPS), which are related with digestion of dietary fibers.
In summary, I have shown that metagenomics based approaches can be robust in characterizing genetic variation in gut bacterial species. I also illustrated, using examples both for SNPs and gene content (galK, PULs and CPS), that this genetic variation can be used to predict the phenotypic characteristics of the microbial species, as well as predicting the phenotype of their human host (for example, their capacity to digest different food components). Overall, the results of my thesis highlight the importance of characterizing the strains in the gut microbiome analogous to the emerging variability and importance of human genomics.
N2  - Mikrobielle Arten (Bakterien und Archaeen) im menschlichen Darm sind wichtige Begleiter für unsere Gesundheit. Jedoch gibt es nicht nur starke Unterschiede zwischen individuellen Wirten in der Artenzusammensetzung des Darmmikrobioms, sondern es scheint sogar Individuen-spezifische Bakterienstämme zu geben. Analysen von Bakterien wie z.B.  Escherichia coli haben schon früh gezeigt, dass die Genome von Bakterienstämmen derselben Art große Unterschiede aufzeigen können; jedoch wurden diese Unterschiede bisher noch nicht in einer natürlichen Umgebung gezeigt. Genetische Variation kann viele Ausprägungen haben und reicht von kleinen Veränderungen wie „small nucleotide polymorphism“ (SNP) zu makroskopischen Veränderung, wie z.B. chromosomalen Restrukturierungen. All diese genetischen Variationen wurden bis jetzt nicht in der natürlichen Umgebung der Bakterien studiert, vorallem bedingt durch fehlende Methoden um die meisten dieser Bakterien um Labor zu kultivieren. Metagenomische Studien können hier helfen, da sie unabhängig von Kultivierungen jegliche DNS aus einer natürlichen Bakteriengemeinschaft untersuchen. Jedoch wurde dies in den meisten bisher veröffentlichten metagenomischen Studien nicht ausgenutzt da diese hauptsächlich auf die Anzahl der gefunden Gene ausgerichtet waren.
Das Ziel meiner Doktorarbeit war es, die genetische Variation in Darmbakterien zu beschreiben und phenotypische Veränderungen zu untersuchen. Dies habe ich umgesetzt durch die Erforschung (1) der SNP-Varianz in Darmbakterien, mit besonderem Augenmerk auf Gene, die unter einem selektivem Druck stehen und (2) der Variationen in der  Genzusammensetzung eines Genomes (als eine Annäherung an strukturelle Variationen) und welchen Effekt dies auf Mikrobenarten und Wirtsphenotypen hat.
Im ersten Kapitel meiner Doktorarbeit beschreibe ich meine Arbeit in einem Projekt unserer Gruppe, in dem wir basierend auf metagenomischen Daten 10 Millionen SNPs in menschlichen Darmbakterien beschrieben haben. Diesen Datensatz habe ich verwendet um die erste SNP-basierte, vergleichende Studie der Bakterienevolution in einem natürlichen Habitat zu realisieren. Ich entdeckte, dass Bakterienstämme unabhängig vom Wirt ähnliche evolutionäre Raten haben. Genauer gesagt, die evolutionäre Rate für eine Art ist stabiler zwischen Wirten, als die von verschiedenen Spezies innerhalb eines Wirtes. Ausserdem fand ich heraus, dass die Evolution von einzelnen Genen unabhängig vom restlichen Genom einer Spezies ist. Dies könnte durch einen Selektionsdruck wie z.B. die Ernährung des Wirtes ausgelöst werden, was ich am Beispiel des Galactokinasegenes (galK) gezeigt habe. Obwohl wir zeigen konnten, dass das SNP-Profil der Darmbakterien spezifisch für den jeweiligen Wirt ist, konnten wir keine Assoziation zwischen SNPs und Wirtsphänotypen finden. Auch aus diesem Grund habe ich mich in meiner weiteren Arbeit verstärkt auf makroskopische Genomvariationen konzentriert.
Im zweiten Teil meiner Doktoarbeit entwickelte ich eine neue Methode, um Variationen in der genomische Zusammensetzung von einzelnen Bakterienarten zu beschreiben, wieder basierend auf metagenomischen Daten. Hierbei fokussiere ich mich insbesondere auf Gene, die in unseren metagenomischen Daten im Verglich zum Referengenom fehlen und wende dies auf die 11 dominantesten Bakterienspezies an. Diese neue Methode ist robust, da die gefundene Genomvarianz in unseren metagenomischen Daten übereinstimmt mit Daten aus komplett sequenzierten Genomen. So konnte ich herausfinden, dass im Durchschnitt 13% der Gene einer Bakterienart zwischen einzelen Wirten varieren. Besonders interessant ist hier, dass wir keine zwei Wirte gefunden haben, die für eine Bakterienart genau diesselben Gene haben. Jedoch ist die erwarte Varianz aller Wahrscheinlichkeit nach noch größer, da ich mit dieser Methode nur fehlende Gene beschreiben kann, aber nicht neu hinzugekommende. Diese Varianz kann auch wichtige bakterielle Funktionen betreffen, z.B. Gene für „polysaccharide utilization loci“ (PULs) und „capsular polysaccharide synthesis“ (CPS), welche wichtig sind um Ballaststoffe in der Nahrung zu verwerten.
Zusammenfassend konnte ich in dieser Arbeit zeigen, dass metagenomische Methoden robust genug sind um die genetische Varianz von Darmbakterien zu beschreiben. Ausserdem konnte ich zeigen, dass die beschriebene Varianz benutzt werden kann, um phenotypische Veränderungen von Bakterien vorherzusagen (demonstriert für die galK, PULs and CPS-Gene). Dies wiederrum könnte benutzt werden um Vorhersagen für den Wirt über z.B. seine Ernährung zu machen. Meine Doktorarbeit zeigt wie wichtig es ist, einzelne Bakterienstämme zu charakterisieren, ganz analog zu der Bedeutsamkeit der genetischen Varianz des menschlichen Genomes.
KW  - metagenomic
KW  - Darmflora
KW  - Metagenom
Y1  - 2015
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-113890
ER  - 
TY  - THES
A1  - Arumugam, Manimozhiyan
T1  - Comparative metagenomic analysis of the human intestinal microbiota
T1  - Vergleichende metagenomische Analyse des menschlichen Darmflora
N2  - The human gut is home for thousands of microbes that are important for human life. As most of these cannot be cultivated, metagenomics is an important means to understand this important community. To perform comparative metagenomic analysis of the human gut microbiome, I have developed SMASH (Simple metagenomic analysis shell), a computational pipeline. SMASH can also be used to assemble and analyze single genomes, and has been successfully applied to the bacterium Mycoplasma pneumoniae and the fungus Chaetomium thermophilum. In the context of the MetaHIT (Metagenomics of the human intestinal tract) consortium our group is participating in, I used SMASH to validate the assembly and to estimate the assembly error rate of 576.7 Gb metagenome sequence obtained using Illumina Solexa technology from fecal DNA of 124 European individuals. I also estimated the completeness of the gene catalogue containing 3.3 million open reading frames obtained from these metagenomes. Finally, I used SMASH to analyze human gut metagenomes of 39 individuals from 6 countries encompassing a wide range of host properties such as age, body mass index and disease states. We find that the variation in the gut microbiome is not continuous but stratified into enterotypes. Enterotypes are complex host-microbial symbiotic states that are not explained by host properties, nutritional habits or possible technical biases. The concept of enterotypes might have far reaching implications, for example, to explain different responses to diet or drug intake. We also find several functional markers in the human gut microbiome that correlate with a number of host properties such as body mass index, highlighting the need for functional analysis and raising hopes for the application of microbial markers as diagnostic or even prognostic tools for microbiota-associated human disorders.
N2  - Der menschliche Darm beheimatet tausende Mikroben, die für das menschliche Leben wichtig sind. Da die meisten dieser Mikroben nicht kultivierbar sind, ist „Metagenomics“ ein wichtiges Werkzeug zum Verständnis dieser wichtigen mikrobiellen Gemeinschaft. Um vergleichende Metagenomanalysen durchführen zu können, habe ich das Computerprogramm SMASH (Simple metagenomic analysis shell) entwickelt. SMASH kann auch zur Assemblierung und Analyse von Einzelgenomen benutzt werden und wurde erfolgreich auch das Bakterium Mycoplasma pneumoniae und den Pilz Chaetomium thermophilum angewandt. Im Zusammenhang mit der Beteiligung unserer Arbeitsgruppe am MetaHIT (Metagenomics of the human intestinal tract) Konsortium, habe ich SMASH benutzt um die Assemblierung zu validieren und die Fehlerrate der Assemblierung von 576.7 Gb Metagenomsequenzen, die mit der Illumina Solexa Technologie aus der fäkalen DNS von 124 europäischen Personen gewonnen wurde, zu bestimmen. Des Weiteren habe ich die Vollständigkeit des Genkatalogs dieser Metagenome, der 3.3 Millionen offene Leserahmen enthält, geschätzt. Zuletzt habe ich SMASH benutzt um die Darmmetagenome von 39 Personen aus 6 Ländern zu analysieren. Hauptergebnis dieser Analyse war, dass die Variation der Darmmikrobiota nicht kontinuierlich ist. Anstatt dessen fanden wir so genannte Enterotypen. Enterotypen sind komplexe Zustände der Symbiose zwischen Wirt und Mikroben, die sich nicht durch Wirteigenschaften, wie Alter, Body-Mass-Index, Erkrankungen und Ernährungseigenschaften oder ein mögliches technisches Bias erklären lassen. Das Konzept der Enterotypen könnte weitgehende Folgen haben. Diese könnten zum Beispiel die unterschiedlichen Reaktionen auf Diäten oder Medikamenteneinahmen erklären. Weiterhin konnten wir eine Anzahl an Markern im menschlichen Darmmikrobiome finden, die mit unterschiedlichen Wirtseigenschaften wie dem Body-Mass-Index korrelieren. Dies hebt die Wichtigkeit dieser Analysemethode hervor und erweckt Hoffnungen auf Anwendung mikrobieller Marker als diagnostisches oder sogar prognostisches Werkzeug für menschliche Erkrankungen in denen das Mikrobiom eine Rolle spielt.
KW  - Darmflora
KW  - Metagenom
KW  - Bioinformatik
KW  - human gut microbiome
KW  - metagenomics
KW  - comparative metagenomics
KW  - computational analysis
Y1  - 2010
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-55903
ER  -