TY - THES A1 - Costea, Paul Igor T1 - Stratification and variation of the human gut microbiota T1 - Stratifikation und Variation des menschlichen Darmmikrobioms N2 - The microbial communities that live inside the human gastrointestinal tract -the human gut microbiome- are important for host health and wellbeing. Characterizing this new “organ”, made up of as many cells as the human body itself, has recently become possible through technological advances. Metagenomics, the high-throughput sequencing of DNA directly from microbial communities, enables us to take genomic snapshots of thousands of microbes living together in this complex ecosystem, without the need for isolating and growing them. Quantifying the composition of the human gut microbiome allows us to investigate its properties and connect it to host physiology and disease. The wealth of such connections was unexpected and is probably still underestimated. Due to the fact that most of our dietary as well as medicinal intake affects the microbiome and that the microbiome itself interacts with our immune system through a multitude of pathways, many mechanisms have been proposed to explain the observed correlations, though most have yet to be understood in depth. An obvious prerequisite to characterizing the microbiome and its interactions with the host is the accurate quantification of its composition, i.e. determining which microbes are present and in what numbers they occur. Historically, standard practices have existed for sample handling, DNA extraction and data analysis for many years. However, these were generally developed for single microbe cultures and it is not always feasible to implement them in large scale metagenomic studies. Partly because of this and partly because of the excitement that new technology brings about, the first metagenomic studies each took the liberty to define their own approach and protocols. From early meta-analysis of these studies it became clear that the differences in sample handling, as well as differences in computational approaches, made comparisons across studies very difficult. This restricts our ability to cross-validate findings of individual studies and to pool samples from larger cohorts. To address the pressing need for standardization, we undertook an extensive comparison of 21 different DNA extraction methods as well as a series of other sample manipulations that affect quantification. We developed a number of criteria for determining the measurement quality in the absence of a mock community and used these to propose best practices for sampling, DNA extraction and library preparation. If these were to be accepted as standards in the field, it would greatly improve comparability across studies, which would dramatically increase the power of our inferences and our ability to draw general conclusions about the microbiome. Most metagenomics studies involve comparisons between microbial communities, for example between fecal samples from cases and controls. A multitude of approaches have been proposed to calculate community dissimilarities (beta diversity) and they are often combined with various preprocessing techniques. Direct metagenomics quantification usually counts sequencing reads mapped to specific taxonomic units, which can be species, genera, etc. Due to technology-inherent differences in sampling depth, normalizing counts is necessary, for instance by dividing each count by the sum of all counts in a sample (i.e. total sum scaling), or by subsampling. To derive a single value for community (dis-)similarity, multiple distance measures have been proposed. Although it is theoretically difficult to benchmark these approaches, we developed a biologically motivated framework in which distance measures can be evaluated. This highlights the importance of data transformations and their impact on the measured distances. Building on our experience with accurate abundance estimation and data preprocessing techniques, we can now try and understand some of the basic properties of microbial communities. In 2011, it was proposed that the space of genus level variation of the human gut microbial community is structured into three basic types, termed enterotypes. These were described in a multi-country cohort, so as to be independent of geography, age and other host properties. Operationally defined through a clustering approach, they are “densely populated areas in a multidimensional space of community composition”(source) and were proposed as a general stratifier for the human population. Later studies that applied this concept to other datasets raised concerns about the optimum number of clusters and robustness of the clustering approach. This heralded a long standing debate about the existence of structure and the best ways to determine and capture it. Here, we reconsider the concept of enterotypes, in the context of the vastly increased amounts of available data. We propose a refined framework in which the different types should be thought of as weak attractors in compositional space and we try to implement an approach to determining which attractor a sample is closest to. To this end, we train a classifier on a reference dataset to assign membership to new samples. This way, enterotypes assignment is no longer dataset dependent and effects due to biased sampling are minimized. Using a model in which we assume the existence of three enterotypes characterized by the same driver genera, as originally postulated, we show the relevance of this stratification and propose it to be used in a clinical setting as a potential marker for disease development. Moreover, we believe that these attractors underline different rules of community assembly and we recommend they be accounted for when analyzing gut microbiome samples. While enterotypes describe structure in the community at genus level, metagenomic sequencing can in principle achieve single-nucleotide resolution, allowing us to identify single nucleotide polymorphisms (SNPs) and other genomic variants in the gut microbiome. Analysis methodology for this level of resolution has only recently been developed and little exploration has been done to date. Assessing SNPs in a large, multinational cohort, we discovered that the landscape of genomic variation seems highly structured even beyond species resolution, indicating that clearly distinguishable subspecies are prevalent among gut microbes. In several cases, these subspecies exhibit geo-stratification, with some subspecies only found in the Chinese population. Generally however, they present only minor dispersion limitations and are seen across most of our study populations. Within one individual, one subspecies is commonly found to dominate and only rarely are several subspecies observed to co-occur in the same ecosystem. Analysis of longitudinal data indicates that the dominant subspecies remains stable over periods of more than three years. When interrogating their functional properties we find many differences, with specific ones appearing relevant to the host. For example, we identify a subspecies of E. rectale that is lacking the flagellum operon and find its presence to be significantly associated with lower body mass index and lower insulin resistance of their hosts; it also correlates with higher microbial community diversity. These associations could not be seen at the species level (where multiple subspecies are convoluted), which illustrates the importance of this increased resolution for a more comprehensive understanding of microbial interactions within the microbiome and with the host. Taken together, our results provide a rigorous basis for performing comparative metagenomics of the human gut, encompassing recommendations for both experimental sample processing and computational analysis. We furthermore refine the concept of community stratification into enterotypes, develop a reference-based approach for enterotype assignment and provide compelling evidence for their relevance. Lastly, by harnessing the full resolution of metagenomics, we discover a highly structured genomic variation landscape below the microbial species level and identify common subspecies of the human gut microbiome. By developing these high-precision metagenomics analysis tools, we thus hope to contribute to a greatly improved understanding of the properties and dynamics of the human gut microbiome. N2 - Die mikrobiellen Gemeinschaften innerhalb des menschlichen Darmtrakts – das menschliche Darm-Mikrobiom - sind wichtig für das Wohlbefinden und die Gesundheit des Wirts. Die Charakterisierung dieses neuen “Organs”, welches aus ähnlich vielen Zellen besteht wie der menschliche Körper, ist in jüngster Zeit durch technologische Fortschritte möglich geworden. Die Metagenomik, die direkte Hochdurchsatz-Sequenzierung mikrobieller DNA, ermöglicht die Aufnahme “genomischer Schnappschüsse” tausender verschiedener, in einem komplexen Ökosystem zusammenlebender Bakterien, ohne dafür auf deren Isolierung und Wachstum angewiesen zu sein. Die Quantifizierung des menschlichen Mikrobioms erlaubt es uns, seine Eigenschaften zu untersuchen und Verbindungen zu Wirtsphysiologie und -krankheiten zu knüpfen. Der Reichtum dieser Informationen ist unerwartet hoch und wahrscheinlich noch immer unterbewertet. Aufgrund der Tatsache, dass der Großteil unserer Ernährung und unseres Medikamentenkonsums unser Mikrobiom, welches wiederum selbst über verschiedene Arten mit unserem Immunsystem interagiert, beeinflusst, wurden viele Mechanismen vorgeschlagen, um die beobachteten Korrelationen zu erklären. Die meisten davon sind jedoch noch nicht vollständig verstanden. Eine offensichtliche Komponente zur Charakterisierung des Mikrobioms und dessen Interaktionen mit dem Wirt ist eine akkurate Quantifizierung seiner genauen Zusammensetzung, womit sowohl die Anwesenheit von bestimmten Bakterien als auch deren Anzahl gemeint ist. Obwohl etablierte Standardprozeduren zur Probenbehandlung, DNA- Extrahierung und Datenanalyse existieren, sind sie nicht immer für metagenomische Studien anwendbar, da sie für isolierte Bakterienkulturen entwickelt worden. Deswegen und auch wegen der Begeisterung, die neuartige Technologien mit sich bringen, nahmen sich die ersten metagenomischen Studien jeweils die Freiheit, ihre eigenen Protokolle und Herangehensweisen zu definieren. Die Metaanalyse dieser Studien zeigte, dass Unterschiede sowohl in der Probenbehandlung als auch in der statistischen Auswertung den Vergleich zwischen Studien sehr schwierig machen. Das wiederum beschneidet unsere Fähigkeit, Entdeckungen zu bestätigen und Daten über Studien hinweg zu kombinieren. Um die zwingend notwendige Standardisierung voranzutreiben haben wir einen umfassenden Vergleich von 21 verschiedenen DNA-Extraktionsmethoden sowie verschiedener weiterer Probenbehandlungen, welche Quantifizierungen beeinflussen, vorgenommen. Wir haben eine Reihe von Kriterien entwickelt, um die Messqualität in Abwesenheit von Mock-Kontrollen zu bestimmen und schlagen anhand dieser Methoden für Probenbeschaffung, DNA-Extraktion und Library- Generierung optimale Verfahren vor. Wenn diese als Standard akzeptiert werden, würde das eine stark verbesserte Vergleichbarkeit zwischen Studien ermöglichen und damit sowohl einen extremen Zuwachs an statistischer Power als auch unserer Fähigkeit, generelle Schlüsse über das Mikrobiom zu ziehen, zur Folge haben. Die meisten metagenomischen Studien teilen ihre Datensätze auf um Vergleiche anzustellen, z.B. zwischen Stuhlproben gesunder und erkrankter Menschen. Eine Vielzahl verschiedener Ansätze, welche wiederum oft mit verschiedenen Datenvorbehandlungen kombiniert werden, wurden vorgeschlagen, um Dissimilarität zwischen Gemeinschaften (Beta-Diversität) zu berechnen. Um metagenomische Daten auf Spezies-, Genus- und höheren Ebenen zu quantifizieren werden üblicherweise reads auf Referenzgenome bestimmter taxonomischer Einheiten aligniert und gezählt. Aufgrund technologieabhängiger Unterschiede in Sequenziertiefe müssen reads normalisiert werden, z.B. indem man alle counts durch die Gesamtanzahl der counts einer Sequenzierung teilt (total sum scaling), oder durch subsampling. Für die Messung der Gemeinschafts(dis)similarität wurden viele Distanzmaße vorgeschlagen. Da es schwierig ist diese Ansätze theoretisch zu vergleichen, haben wir ein biologisch motiviertes Konzept entwickelt, mit dem man Distanzmaße evaluieren kann. Dies unterstreicht die Wichtigkeit der Datentransformation und dessen Einwirkung auf Distanzmaße. Aufbauend auf unserer Erfahrung mit Häufigkeitsabschätzungen und Techniken zur Datenvorbehandlung können wir nun versuchen, grundlegende Eigenschaften mikrobieller Gemeinschaften zu verstehen. 2011 wurde vorgeschlagen, dass sich die Variation auf Genusebene im menschlichen Darm auf drei grundlegende Typen beschränkt, welche Enterotypen getauft wurden. Diese wurden in Datensätzen verschiedener Länder als unabhängig von Herkunft, Alter und anderer Wirtseigenschaften beschrieben. Die Enterotypen sind durch einen Cluster-Ansatz als „dicht besiedelte Bereiche in einem multidimensionalen Raum der Gemeinschaftszusammensetzung“ definiert und wurden als grundlegende Stratifikatoren für die menschlichen Population vorgeschlagen. Spätere Studien, welche dieses Konzept auf andere Datensätze anwandten, erhoben Zweifel bezüglich der optimalen Anzahl an Clustern und an der generellen Robustheit des Ansatzes. Dies leitete erneut eine langanhaltende Debate über die Existenz von Strukturen und die besten Wege, diese zu bestimmen und einzufangen, ein. Hier überdenken wir, in Anbetracht der stark gestiegenen Anzahl an verfügbaren Daten, das Enterotypen-Konzept. Wir schlagen ein überarbeitetes Konzept vor, in welchem die verschiedenen Enterotypen als schwache Attraktoren im multidimensionalen Raum verstanden werden und implementieren einen Ansatz zur Berechnung des Attraktors, der dem Datensatz am ähnlichsten ist. Dafür trainieren wir einen Klassifizierer auf einen Referenz- Datensatz, um neue Datensätze zuzuordnen. Damit ist Enterotypisierung nicht mehr datensatzabhängig und der Effekt von sampling bias ist minimiert. Indem wir ein Modell nutzen für das wir die Existenz dreier Enterotypen (definiert durch die selben Genera wie ursprünglich postuliert) annehmen, zeigen wir die Relevanz dieser Stratifikation und schlagen es in einem klinischen Zusammenhang als potentiellen Marker für Krankheitsfortschritt vor. Außerdem glauben wir, dass diese Attraktoren verschiedene Regeln mikrobieller Zusammensetzung widerspiegeln und schlagen vor, sie bei der Analyse von mikrobiellen Daten zu berücksichtigen. Während Enterotypen Struktur in der Gemeinschaft auf Genusebene beschreiben, kann metagenomische Sequenzierung prinzipiell Auflösung auf Nukleotidebene erreichen, womit single nucleotide polymorphisms (SNPs) und andere genomische Variationen im Darm- Mikrobiom identifiziert werden können. Analysemethoden für dieses Auflösungsniveau wurden erst kürzlich entwickelt und bis heute wurden diese erst wenig erforscht. Wir zeigen, dass die Landschaft an genomischer Variation von SNPs in einer großen, multinationalen Kohorte sogar über die Speziesebene hinaus geht und hochgradig strukturiert ist, was das Vorkommen klar abgrenzbarer Subspezies unter Darmmikroben suggeriert. In mehreren Fällen zeigen diese Subspezies geographische Stratifikation, wobei einige Subspezies nur in chinesischen Populationen vorkommen. Im Allgemein zeigen Sie jedoch nur eine geringfügige Beschränkung der Dispersion und sind in der Mehrzahl der Populationen vorhanden. Innerhalb eines Individuums dominiert häufig eine bestimmte Subspezies, nur selten dominieren verschieden gemeinsam im gleichen Ökosystem. Eine Analyse von Zeitreihenexperimenten deutet darauf hin, dass die dominante Subspezies über Zeiträume von mehr als drei Jahren stabil bleibt. Wenn man ihre funktionalen Eigenschaften untersucht findet man viele Unterschiede, von denen bestimmte relevant für den Wirt erscheinen. Zum Beispiel identifizieren wir eine Subspezies von E. rectale, welcher das Flagellum-Operon fehlt, die signifikant assoziiert ist mit geringerem BMI und geringerer Insulinresistenz ihres Wirts; sie korreliert zudem mit höherer mikrobieller Diversität. Diese Assoziationen konnten auf Speziesebene nicht gesehen werden (auf der mehrere Subspezies überlagert sind), was die Wichtigkeit dieser erhöhten Auflösung für ein umfassenderes Verständnis mikrobieller Interaktionen innerhalb des Mikrobioms und mit dem Wirt illustriert. Zusammenfassend bieten unsere Ergebnisse eine präzise Grundlage für vergleichende Metagenomik des menschlichen Darms, einschließlich Empfehlungen über experimentelles Sampling und statistische Analysen. Weiterhin verfeinern wir das Konzept der Enterotypen- Stratifikation in Gemeinschaften, entwickeln referenzbasierte Ansätze für Enterotypen- Zuordnung und bieten überzeugende Beweise für ihre Relevanz. Indem wir die volle Auflösung metagenomischer Sequenzierungen nutzen entdecken wir eine Landschaft hochgradig strukturierter genomischer Variation unterhalb der Speziesebene und identifizieren gemeinsame Subspezies des menschlichen Darm-Mikrobioms. Durch die Entwicklung dieser hochpräzisen metagenomischen Untersuchungsansätze tragen wir zu einem verbesserten KW - metagenomics KW - microbiology KW - Mensch KW - Darmflora KW - Metagenom Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-139649 ER - TY - THES A1 - Zhu, Ana Cheng T1 - Metagenomic analysis of genetic variation in human gut microbial species T1 - Metagenomische Analysen der genetischen Variationen in menschlichen Darmbakterien N2 - Microbial species (bacteria and archaea) in the gut are important for human health in various ways. Not only does the species composition vary considerably within the human population, but each individual also appears to have its own strains of a given species. While it is known from studies of bacterial pan-genomes, that genetic variation between strains can differ considerably, such as in Escherichia coli, the extent of genetic variation of strains for abundant gut species has not been surveyed in a natural habitat. This is mainly due to the fact that most of these species cannot be cultured in the laboratory. Genetic variation can range from microscale genomic rearrangements such as small nucleotide polymorphism (SNP) to macroscale large genomic rearrangements like structural variations. Metagenomics offers an alternative solution to study genetic variation in prokaryotes, as it involves DNA sequencing of the whole community directly from the environment. However, most metagenomic studies to date only focus on variation in gene abundance and hence are not able to characterize genetic variation (in terms of presence or absence of SNPs and genes) of gut microbial strains of individuals. The aim of my doctorate studies was therefore to study the extent of genetic variation in the genomic sequence of gut prokaryotic species and its phenotypic effects based on: (1) the impact of SNP variation in gut bacterial species, by focusing on genes under selective pressure and (2) the gene content variation (as a proxy for structural variation) and their effect on microbial species and the phenotypic traits of their human host. In the first part of my doctorate studies, I was involved in a project in which we created a catalogue of 10.3 million SNPs in gut prokaryotic species, based on metagenomes. I used this to perform the first SNP-based comparative study of prokaryotic species evolution in a natural habitat. Here, I found that strains of gut microbial species in different individuals evolve at more similar rates than the strains within an individual. In addition, I found that gene evolution can be uncoupled from the evolution of its originating species, and that this could be related to selective pressure such as diet, exemplified by galactokinase gene (galK). Despite the individuality (i.e. uniqueness of each individual within the studied metagenomic dataset) in the SNP profile of the gut microbiota that we found, for most cases it is not possible to link SNPs with phenotypic differences. For this reason I also used gene content as a proxy to study structural variation in metagenomes. In the second part of my doctorate studies, I developed a methodology to characterize the variability of gene content in gut bacterial species, using metagenomes. My approach is based on gene deletions, and was applied to abundant species (demonstrated using a set of 11 species). The method is sufficiently robust as it captures a similar range of gene content variability as has been detected in completely sequenced genomes. Using this procedure I found individuals differ by an average of 13% in their gene content of gut bacterial strains within the same species. Interestingly no two individuals shared the same gene content across bacterial species. However, this variation corresponds to a lower limit, as it is only accounts for gene deletion and not insertions. This large variation in the gene content of gut strain was found to affect important functions, such as polysaccharide utilization loci (PULs) and capsular polysaccharide synthesis (CPS), which are related with digestion of dietary fibers. In summary, I have shown that metagenomics based approaches can be robust in characterizing genetic variation in gut bacterial species. I also illustrated, using examples both for SNPs and gene content (galK, PULs and CPS), that this genetic variation can be used to predict the phenotypic characteristics of the microbial species, as well as predicting the phenotype of their human host (for example, their capacity to digest different food components). Overall, the results of my thesis highlight the importance of characterizing the strains in the gut microbiome analogous to the emerging variability and importance of human genomics. N2 - Mikrobielle Arten (Bakterien und Archaeen) im menschlichen Darm sind wichtige Begleiter für unsere Gesundheit. Jedoch gibt es nicht nur starke Unterschiede zwischen individuellen Wirten in der Artenzusammensetzung des Darmmikrobioms, sondern es scheint sogar Individuen-spezifische Bakterienstämme zu geben. Analysen von Bakterien wie z.B. Escherichia coli haben schon früh gezeigt, dass die Genome von Bakterienstämmen derselben Art große Unterschiede aufzeigen können; jedoch wurden diese Unterschiede bisher noch nicht in einer natürlichen Umgebung gezeigt. Genetische Variation kann viele Ausprägungen haben und reicht von kleinen Veränderungen wie „small nucleotide polymorphism“ (SNP) zu makroskopischen Veränderung, wie z.B. chromosomalen Restrukturierungen. All diese genetischen Variationen wurden bis jetzt nicht in der natürlichen Umgebung der Bakterien studiert, vorallem bedingt durch fehlende Methoden um die meisten dieser Bakterien um Labor zu kultivieren. Metagenomische Studien können hier helfen, da sie unabhängig von Kultivierungen jegliche DNS aus einer natürlichen Bakteriengemeinschaft untersuchen. Jedoch wurde dies in den meisten bisher veröffentlichten metagenomischen Studien nicht ausgenutzt da diese hauptsächlich auf die Anzahl der gefunden Gene ausgerichtet waren. Das Ziel meiner Doktorarbeit war es, die genetische Variation in Darmbakterien zu beschreiben und phenotypische Veränderungen zu untersuchen. Dies habe ich umgesetzt durch die Erforschung (1) der SNP-Varianz in Darmbakterien, mit besonderem Augenmerk auf Gene, die unter einem selektivem Druck stehen und (2) der Variationen in der Genzusammensetzung eines Genomes (als eine Annäherung an strukturelle Variationen) und welchen Effekt dies auf Mikrobenarten und Wirtsphenotypen hat. Im ersten Kapitel meiner Doktorarbeit beschreibe ich meine Arbeit in einem Projekt unserer Gruppe, in dem wir basierend auf metagenomischen Daten 10 Millionen SNPs in menschlichen Darmbakterien beschrieben haben. Diesen Datensatz habe ich verwendet um die erste SNP-basierte, vergleichende Studie der Bakterienevolution in einem natürlichen Habitat zu realisieren. Ich entdeckte, dass Bakterienstämme unabhängig vom Wirt ähnliche evolutionäre Raten haben. Genauer gesagt, die evolutionäre Rate für eine Art ist stabiler zwischen Wirten, als die von verschiedenen Spezies innerhalb eines Wirtes. Ausserdem fand ich heraus, dass die Evolution von einzelnen Genen unabhängig vom restlichen Genom einer Spezies ist. Dies könnte durch einen Selektionsdruck wie z.B. die Ernährung des Wirtes ausgelöst werden, was ich am Beispiel des Galactokinasegenes (galK) gezeigt habe. Obwohl wir zeigen konnten, dass das SNP-Profil der Darmbakterien spezifisch für den jeweiligen Wirt ist, konnten wir keine Assoziation zwischen SNPs und Wirtsphänotypen finden. Auch aus diesem Grund habe ich mich in meiner weiteren Arbeit verstärkt auf makroskopische Genomvariationen konzentriert. Im zweiten Teil meiner Doktoarbeit entwickelte ich eine neue Methode, um Variationen in der genomische Zusammensetzung von einzelnen Bakterienarten zu beschreiben, wieder basierend auf metagenomischen Daten. Hierbei fokussiere ich mich insbesondere auf Gene, die in unseren metagenomischen Daten im Verglich zum Referengenom fehlen und wende dies auf die 11 dominantesten Bakterienspezies an. Diese neue Methode ist robust, da die gefundene Genomvarianz in unseren metagenomischen Daten übereinstimmt mit Daten aus komplett sequenzierten Genomen. So konnte ich herausfinden, dass im Durchschnitt 13% der Gene einer Bakterienart zwischen einzelen Wirten varieren. Besonders interessant ist hier, dass wir keine zwei Wirte gefunden haben, die für eine Bakterienart genau diesselben Gene haben. Jedoch ist die erwarte Varianz aller Wahrscheinlichkeit nach noch größer, da ich mit dieser Methode nur fehlende Gene beschreiben kann, aber nicht neu hinzugekommende. Diese Varianz kann auch wichtige bakterielle Funktionen betreffen, z.B. Gene für „polysaccharide utilization loci“ (PULs) und „capsular polysaccharide synthesis“ (CPS), welche wichtig sind um Ballaststoffe in der Nahrung zu verwerten. Zusammenfassend konnte ich in dieser Arbeit zeigen, dass metagenomische Methoden robust genug sind um die genetische Varianz von Darmbakterien zu beschreiben. Ausserdem konnte ich zeigen, dass die beschriebene Varianz benutzt werden kann, um phenotypische Veränderungen von Bakterien vorherzusagen (demonstriert für die galK, PULs and CPS-Gene). Dies wiederrum könnte benutzt werden um Vorhersagen für den Wirt über z.B. seine Ernährung zu machen. Meine Doktorarbeit zeigt wie wichtig es ist, einzelne Bakterienstämme zu charakterisieren, ganz analog zu der Bedeutsamkeit der genetischen Varianz des menschlichen Genomes. KW - metagenomic KW - Darmflora KW - Metagenom Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-113890 ER - TY - THES A1 - Somody, Joseph Christian Campbell T1 - Leveraging deep learning for identification and structural determination of novel protein complexes from \(in\) \(situ\) electron cryotomography of \(Mycoplasma\) \(pneumoniae\) T1 - Tiefenlernen als Werkzeug zur Identifizierung und Strukturbestimmung neuer Proteinkomplexe aus der \(in\)-\(situ\)-Elektronenkryotomographie von \(Mycoplasma\) \(pneumoniae\) N2 - The holy grail of structural biology is to study a protein in situ, and this goal has been fast approaching since the resolution revolution and the achievement of atomic resolution. A cell's interior is not a dilute environment, and proteins have evolved to fold and function as needed in that environment; as such, an investigation of a cellular component should ideally include the full complexity of the cellular environment. Imaging whole cells in three dimensions using electron cryotomography is the best method to accomplish this goal, but it comes with a limitation on sample thickness and produces noisy data unamenable to direct analysis. This thesis establishes a novel workflow to systematically analyse whole-cell electron cryotomography data in three dimensions and to find and identify instances of protein complexes in the data to set up a determination of their structure and identity for success. Mycoplasma pneumoniae is a very small parasitic bacterium with fewer than 700 protein-coding genes, is thin enough and small enough to be imaged in large quantities by electron cryotomography, and can grow directly on the grids used for imaging, making it ideal for exploratory studies in structural proteomics. As part of the workflow, a methodology for training deep-learning-based particle-picking models is established. As a proof of principle, a dataset of whole-cell Mycoplasma pneumoniae tomograms is used with this workflow to characterize a novel membrane-associated complex observed in the data. Ultimately, 25431 such particles are picked from 353 tomograms and refined to a density map with a resolution of 11 Å. Making good use of orthogonal datasets to filter search space and verify results, structures were predicted for candidate proteins and checked for suitable fit in the density map. In the end, with this approach, nine proteins were found to be part of the complex, which appears to be associated with chaperone activity and interact with translocon machinery. Visual proteomics refers to the ultimate potential of in situ electron cryotomography: the comprehensive interpretation of tomograms. The workflow presented here is demonstrated to help in reaching that potential. N2 - Der heilige Gral der Strukturbiologie ist die Untersuchung eines Proteins in situ, und dieses Ziel ist seit der Auflösungsrevolution und dem Erreichen der atomaren Auflösung in greifbare Nähe gerückt. Das Innere einer Zelle ist keine verdünnte Umgebung, und Proteine haben sich so entwickelt, dass sie sich falten und so funktionieren, wie es in dieser Umgebung erforderlich ist; daher sollte die Untersuchung einer zellulären Komponente idealerweise die gesamte Komplexität der zellulären Umgebung umfassen. Die Abbildung ganzer Zellen in drei Dimensionen mit Hilfe der Elektronenkryotomographie ist die beste Methode, um dieses Ziel zu erreichen, aber sie ist mit einer Beschränkung der Probendicke verbunden und erzeugt verrauschte Daten, die sich nicht für eine direkte Analyse eignen. In dieser Dissertation wird ein neuartiger Workflow zur systematischen dreidimensionalen Analyse von Ganzzell-Elektronenkryotomographiedaten und zur Auffindung und Identifizierung von Proteinkomplexen in diesen Daten entwickelt, um eine erfolgreiche Bestimmung ihrer Struktur und Identität zu ermöglichen. Mycoplasma pneumoniae ist ein sehr kleines parasitäres Bakterium mit weniger als 700 proteinkodierenden Genen. Es ist dünn und klein genug, um in grossen Mengen durch Elektronenkryotomographie abgebildet zu werden, und kann direkt auf den für die Abbildung verwendeten Gittern wachsen, was es ideal für Sondierungsstudien in der strukturellen Proteomik macht. Als Teil des Workflows wird eine Methodik für das Training von Deep-Learning-basierten Partikelpicken-Modellen entwickelt. Als Proof-of-Principle wird ein Dataset von Ganzzell-Tomogrammen von Mycoplasma pneumoniae mit diesem Workflow verwendet, um einen neuartigen membranassoziierten Komplex zu charakterisieren, der in den Daten beobachtet wurde. Insgesamt wurden 25431 solcher Partikel aus 353 Tomogrammen gepickt und zu einer Dichtekarte mit einer Auflösung von 11 Å verfeinert. Unter Verwendung orthogonaler Datensätze zur Filterung des Suchraums und zur Überprüfung der Ergebnisse wurden Strukturen für Protein-Kandidaten vorhergesagt und auf ihre Eignung für die Dichtekarte überprüft. Letztendlich wurden mit diesem Ansatz neun Proteine als Bestandteile des Komplexes gefunden, der offenbar mit der Chaperonaktivität in Verbindung steht und mit der Translocon-Maschinerie interagiert. Das ultimative Potenzial der In-situ-Elektronenkryotomographie – die umfassende Interpretation von Tomogrammen – wird als visuelle Proteomik bezeichnet. Der hier vorgestellte Workflow soll dabei helfen, dieses Potenzial auszuschöpfen. KW - Kryoelektronenmikroskopie KW - Tomografie KW - Mycoplasma pneumoniae KW - Deep learning KW - cryo-EM KW - cryo-ET KW - tomography KW - mycoplasma KW - pneumoniae KW - deep learning KW - particle picking KW - membrane protein KW - visual proteomics Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-313447 ER - TY - THES A1 - Romanov, Natalie T1 - Characterizing Variation of Protein Complexes and Functional Modules on a Temporal Scale and across Individuals T1 - Charakterisierung der Variation von Proteinkomplexen und funktionellen Modulen im zeitlichen Kontext und zwischen Individuen N2 - A fundamental question in current biology concerns the translational mechanisms leading from genetic variability to phenotypes. Technologies have evolved to the extent that they can efficiently and economically determine an individual’s genomic composition, while at the same time big data on clinical profiles and diagnostics have substantially accumulated. Genome-wide association studies linking genomic loci to certain traits, however, remain limited in their capacity to explain the cellular mechanisms that underlie the given association. For most associations, gene expression has been blamed; yet given that transcript and protein abundance oftentimes do not correlate, that finding does not necessarily decrypt the underlying mechanism. Thus, the integration of further information is crucial to establish a model that could prove more accurate in predicting genotypic effects on the human organism. In this work we describe the so-called proteotype as a feature of the cell that could provide a substantial link between genotype and phenotype. Rather than looking at the proteome as a set of independent molecules, we demonstrate a consistent modular architecture of the proteome that is driven by molecular cooperativity. Functional modules, especially protein complexes, can be further interrogated for differences between individuals and tackled as imprints of genetic and environmental variability. We also show that subtle stoichiometric changes of protein modules could have broader effects on the cellular system, such as the transport of specific molecular cargos. The presented work also delineates to what extent temporal events and processes influence the stoichiometry of protein complexes and functional modules. The re-wiring of the glycolytic pathway for example is illustrated as a potential cause for an increased Warburg effect during the ageing of the human bone marrow. On top of analyzing protein abundances we also interrogate proteome dynamics in terms of stability and solubility transitions during the short temporal progression of the cell cycle. One of our main observations in the thesis encompass the delineation of protein complexes into respective sub-complexes according to distinct stability patterns during the cell cycle. This has never been demonstrated before, and is functionally relevant for our understanding of the dis- and assembly of large protein modules. The insights presented in this work imply that the proteome is more than the sum of its parts, and primarily driven by variability in entire protein ensembles and their cooperative nature. Analyzing protein complexes and functional modules as molecular reflections of genetic and environmental variations could indeed prove to be a stepping stone in closing the gap between genotype and phenotype and customizing clinical treatments in the future. N2 - Eine fundamentale Frage in der heutigen biologischen Forschung ist durch welche Mechanismen eine gebenene genetische Variation sich in einem Phänotyp äußert. Etliche Technologien können heutzutage effizient und ökonomisch die genomische Komposition eines Individuals mit beispielloser Genaugikeit aufschlüsseln. Gleichzeitig gibt es wesentliche Erfolge und Bemühungen, große Datenmengen von Patienten zu sammeln, sowohl klinische Profile, als auch Diagnosen. Es gibt bereits mehrere genomweite Assoziationsstudien, die auf spezifische genomische Loci hinweisen, die womöglich einem bestimmenten phänotypischen Merkmalen zugrunde liegen. Obwohl für die meisten genetischen Assoziationen, eine veränderte Genexpression oftmals als Ursache diskutiert wird, ist dies wahrscheinlich nur ein Teil des zugrundeliegenden Mechanismus. Wir können dies annehmen, da RNA-Transkripte nicht unbedingt mit ihrem Protein-Produkt korrelieren aufgrund von post-transkriptioneller und translationeller Regulation. Um dementsprechend ein Modell zu etablieren, das die genotypischen Effekte auf den human Organismus akkurat vorhersagen kann, ist eine Integration von mehreren zellulären Informationsschichten notwendig. In der folgenden Arbeit beschreiben wir den sogenannten Proteotyp als ein zelluläres Merkmal, das eine substanzielle Verknüpfung zwischen dem Genotyp und dem Phänotyp eines Individuums schaffen könnte. Statt das Proteom als ein Set unabhängiger Moleküle zu betrachten, zeigen wir eine konsistent moduläre Architektur des Proteoms auf, das durch die molekulare Kooperativität zustande kommt. Funktionelle Module, v.a. Proteinkomplexe, können weiters auf Unterschiede zwischen Individuen untersucht werden, sowie deren Variabilität aufgrund genetischer oder umweltbedingter Ursachen. Wir demonstrieren u.a. auch, dass leichte stöchiometrische Veränderungen in solchen Modulen zu weitläufigen Effekten im zellulären Haushalt führen können, z.B. im Transport von spezifischen Molekülen. Die vorgestellte Arbeit beschreibt allerdings auch inwieweit temporäre Ereignisse und Prozesse die Stöchiometrie von Proteinkomplexen und funktionellen Modulen beeinflussen. Wir zeigen z.B. auf, dass eine Veränderung in der glycolytischen Enzym-Stöchiometrie die Ursache für den Warburgeffekt in gealterten Zellen des humanen Knochenmarks darstellen könnte. Neben der Analyse von Protein-Abundanzen untersucht die vorliegende Arbeit Proteomdynamik auch in Hinblick auf Stabilitäts- und Löslichkeitsveränderungen von Proteine in kürzeren Zeitabläufen wie den Zellzyklus. Wir können dabei feststellen, dass Untereinheiten von größeren Proteinkomplexen verschiedene Stabilitätsmuster aufweisen. Dies ist durchaus eine neue Erkennis, die weittragende Folgen für unser Verständnis des Ab- und Aufbauprozesses von Proteinkomplexen haben könnte. Die Einblicke, die aus dieser Arbeit gewonnen werden können, implizieren in jedem Falle, dass das Proteom mehr als die Summe der Einzelteile darstellt, und hauptsächlich durch die Variabilität von gesamten Proteinensembls und deren Kooperativität bestimmt wird. Proteinkomplexe und funktionelle Module sollten daher als molekulare Reflektionen von genetisch- und umweltbedingter Variation betrachtet werden. Solch ein Perspektivenwechsel könnte damit die Möglichkeit bieten eine mechanistische Verknüpfung von Genotyp und Phänotyp zu gewährleisten, und ein Fundament für zukünftige individuell angepasste klinische Behandlungen darstellen. KW - Proteotype KW - Proteomics Analysis of Complexes Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-168139 ER - TY - THES A1 - Ferretti, Pamela T1 - \(Clostridioides\) \(difficile\) beyond the disease-centred perspective: Beneficial properties in healthy infants and over-diagnosis in diseased adults identified by species- and SNV-based metagenomic analysis T1 - \(Clostridioides\) \(difficile\) jenseits der krankheitszentrierten Perspektive: Vorteilhafte Eigenschaften bei gesunden Säuglingen und Überdiagnose bei erkrankten Erwachsenen, identifiziert durch spezies- und SNV-basierte metagenomische Analyse N2 - Clostridioides difficile is a bacterial species well known for its ability to cause C. difficile infection (also known as CDI). The investigation of the role of this species in the human gut has been so far dominated by a disease-centred perspective, focused on studying C. difficile in relation to its associated disease. In this context, the first aim of this thesis was to combine publicly available metagenomic data to analyse the microbial composition of stool samples from patients diagnosed with CDI, with a particular focus on identifying a CDI-specific microbial signature. However, similarly to many other bacterial species inhabiting the human gut, C. difficile association with disease is not valid in absolute terms, as C. difficile can be found also among healthy subjects. Further aims of this thesis were to 1) identify potential C. difficile reservoirs by screening a wide range of habitats, hosts, body sites and age groups, and characterize the biotic context associated with C. difficile presence, and 2) investigate C. difficile within-species diversity and its toxigenic potential across different age groups. The first part of the thesis starts with the description of the concepts and definitions used to identify bacterial species and within-species diversity, and then proceeds to provide an overview of the bacterial species at the centre of my investigation, C. difficile. The first Chapter includes a detailed description of the discovery, biology and physiology of this clinically relevant species, followed by an overview of the diagnostic protocols used in the clinical setting to diagnose CDI. The second part of the thesis describes the methodology used to investigate the questions mentioned above, while the third part presents the results of such investigative effort. I first show that C. difficile could be found in only a fraction of the CDI samples and that simultaneous colonization of multiple enteropathogenic species able to cause CDI-like clinical manifestations is more common than previously thought, raising concerns about CDI overdiagnosis. I then show that the CDIassociated gut microbiome is characterized by a specific microbial signature, distinguishable from the community composition associated with non-CDI diarrhea. Beyond the nosocomial and CDI context, I show that while rarely found in adults, C. difficile is a common member of the infant gut microbiome, where its presence is associated with multiple indicators typical of a desirable healthy microbiome development. In addition, I describe C. difficile extensive carriage among asymptomatic subjects, of all age groups and a potentially novel clade of C. difficile identified exclusively among infants. Finally, I discuss the limitations, challenges and future perspectives of my investigation. N2 - Clostridioides difficile ist eine Bakterienart, die für ihre Fähigkeit bekannt ist, eine C. difficile-Infektion (auch bekannt als CDI) zu verursachen. Die Untersuchung der Rolle dieser Spezies im menschlichen Darm wurde bisher von einer krankheitszentrierten Perspektive dominiert, die sich auf die Untersuchung von C. difficile in Bezug auf die damit verbundene Erkrankung konzentrierte. In diesem Zusammenhang war das erste Ziel dieser Arbeit, öffentlich verfügbare metagenomische Daten zu kombinieren, um die mikrobielle Zusammensetzung von Stuhlproben von Patienten mit diagnostizierter CDI zu analysieren, mit besonderem Fokus auf der Identifizierung einer CDI-spezifischen mikrobiellen Signatur. Wie bei vielen anderen Bakterienarten, die den menschlichen Darm bewohnen, ist jedoch die Assoziation von C. difficile mit einer Krankheit nicht absolut gültig, da C. difficile auch bei gesunden Probanden gefunden werden kann. Weitere Ziele dieser Arbeit waren 1) die Identifizierung potenzieller C. difficile-Reservoirs durch das Screening einer Vielzahl von Habitaten, Wirten, Körperstellen und Altersgruppen und die Charakterisierung des mit der Präsenz von C. difficile verbundenen biotischen Kontexts und 2) Untersuchung von C. difficile innerhalb der Artenvielfalt und ihr toxigenes Potenzial über verschiedene Altersgruppen hinweg. Der erste Teil der Dissertation beginnt mit der Beschreibung der Konzepte und Definitionen, die verwendet werden, um Bakterienarten und innerhalb der Artenvielfalt zu identifizieren, und fährt dann fort, einen Überblick über die Bakterienarten zu geben, die im Zentrum meiner Untersuchung, C. difficile, stehen. Das erste Kapitel enthält eine detaillierte Beschreibung der Entdeckung, Biologie und Physiologie dieser klinisch relevanten Spezies, gefolgt von einem Überblick über die diagnostischen Protokolle, die im klinischen Umfeld zur Diagnose von CDI verwendet werden. Der zweite Teil der Arbeit beschreibt die Methodik zur Untersuchung der oben genannten Fragen, während der dritte Teil die Ergebnisse dieser Untersuchungsarbeit präsentiert. Ich zeige zunächst, dass C. difficile nur in einem Bruchteil der CDI-Proben gefunden werden konnte und dass die gleichzeitige Besiedlung mehrerer enteropathogener Spezies, die CDI-ähnliche klinische Manifestationen verursachen können, häufiger vorkommt als bisher angenommen, was Bedenken hinsichtlich einer CDI-Überdiagnose aufkommen lässt. Ich zeige dann, dass das CDI-assoziierte Darmmikrobiom durch eine spezifische mikrobielle Signatur gekennzeichnet ist, die sich von der Gemeinschaftszusammensetzung unterscheidet, die mit Nicht-CDI- Diarrhoe verbunden ist. Über den nosokomialen und CDI-Kontext hinaus zeige ich, dass C. difficile, obwohl es bei Erwachsenen selten vorkommt, ein häufiges Mitglied des Darmmikrobioms von Säuglingen ist, wo seine Anwesenheit mit mehreren Indikatoren verbunden ist, die typisch für eine wünschenswerte gesunde Mikrobiomentwicklung sind. Darüber hinaus beschreibe ich die ausgedehnte Beförderung von C. difficile bei asymptomatischen Patienten aller Altersgruppen und eine potenziell neue Gruppe von C. difficile, die ausschließlich bei Säuglingen identifiziert wurde. Abschließend diskutiere ich die Grenzen, Herausforderungen und Zukunftsperspektiven meiner Untersuchung. KW - microbiome KW - infant KW - C. difficile KW - CDI Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-254170 ER - TY - THES A1 - Maistrenko, Oleksandr T1 - Pangenome analysis of bacteria and its application in metagenomics T1 - Bakterielle Pan-Genome und ihre Anwendungen in der Metagenomik N2 - The biosphere harbors a large quantity and diversity of microbial organisms that can thrive in all environments. Estimates of the total number of microbial species reach up to 1012, of which less than 15,000 have been characterized to date. It has been challenging to delineate phenotypically, evolutionary and ecologically meaningful lineages such as for example, species, subspecies and strains. Even within recognized species, gene content can vary considerably between sublineages (for example strains), a problem that can be addressed by analyzing pangenomes, defined as the non-redundant set of genes within a phylogenetic clade, as evolutionary units. Species considered to be ecologically and evolutionary coherent units, however to date it is still not fully understood what are primary habitats and ecological niches of many prokaryotic species and how environmental preferences drive their genomic diversity. Majority of comparative genomics studies focused on a single prokaryotic species in context of clinical relevance and ecology. With accumulation of sequencing data due to genomics and metagenomics, it is now possible to investigate trends across many species, which will facilitate understanding of pangenome evolution, species and subspecies delineation. The major aims of this thesis were 1) to annotate habitat preferences of prokaryotic species and strains; 2) investigate to what extent these environmental preferences drive genomic diversity of prokaryotes and to what extent phylogenetic constraints limit this diversification; 3) explore natural nucleotide identity thresholds to delineate species in bacteria in metagenomics gene catalogs; 4) explore species delineation for applications in subspecies and strain delineation in metagenomics. The first part of the thesis describes methods to infer environmental preferences of microbial species. This data is a prerequisite for the analyses performed in the second part of the thesis which explores how the structure of bacterial pangenomes is predetermined by past evolutionary history and how is it linked to environmental preferences of the species. The main finding in this subchapter that habitat preferences explained up to 49% of the variance for pangenome structure, compared to 18% by phylogenetic inertia. In general, this trend indicates that phylogenetic inertia does not limit evolution of pangenome size and diversity, but that convergent evolution may overcome phylogenetic constraints. In this project we show that core genome size is associated with higher environmental ubiquity of species. It is likely this is due to the fact that species need to have more versatile genomes and most necessary genes need to be present in majority of genomes of that species to be highly prevalent. Taken together these findings may be useful for future predictive analyses of ecological niches in newly discovered species. The third part of the thesis explores data-driven, operational species boundaries. I show that homologous genes from the same species from different genomes tend to share at least 95% of nucleotide identity, while different species within the same genus have lower nucleotide identity. This is in line with other studies showing that genome-wide natural species boundary might be in range of 90-95% of nucleotide identity. Finally, the fourth part of the thesis discusses how challenges in species delineation are relevant for the identification of meaningful within-species groups, followed by a discussion on how advancements in species delineation can be applied for classification of within-species genomic diversity in the age of metagenomics. N2 - Die Biosphäre beherbergt eine große Zahl verschiedener Mikroorganismen, die fast alle bekannten Lebensräume besiedeln können. Die Gesamtzahl mikrobieller Spezies liegt Schätzungen zu Folge bei bis zu 1012, von denen jedoch bis heute erst 15.000 beschrieben worden sind. Die Beschreibung von phänotypisch, evolutionsbiologisch und ökologisch kohärenten Spezies, Sub-Spezies oder Stämmen stellt Forscher vor konzeptionelle Herausforderungen. Selbst innerhalb anerkannter Spezies kann die Kombination einzelner Gene oft stark variieren. Diese Beobachtung ist die Grundlage der Analyse von Pan-Genomen. also der Konstellation originärer Gene innerhalb einer Abstammunsglinie, als evolutionsbiologische Einheiten. Spezies entsprechen prinzipiell ökologisch und evolutionär kohärenten Einheiten, jedoch sind die primären Habitate und ökologischen Nischen vieler prokaryotischer Spezies bis heute nur unzureichend beschrieben, insbesondere mit Blick auf den Einfluss ökologischer Präferenzen auf die Evolution von Genomen. Die Mehrheit vergleichender genomischer Studien untersucht einzelne prokaryotische Spezies mit Bezug auf deren klinische oder ökologische Relevanz. Aufgrund der wachsenden Verfügbarkeit genomischer Daten ist es nun jedoch möglich, vergleichende Studien über Speziesgrenzen hinweg durchzuführen, um allgemeine Prinzipien der Evolution von Pan-Genomen, Spezies und Sub-Spezies zu untersuchen. Die wesentlichen Ziele der vorliegenden Arbeit waren 1) die Annotation von Habitatpräferenzen prokaryotischer Spezies und Stämme; 2) die Quantifizierung des Einflusses von Umwelt und Evolutionsgeschichte (Phylogenie) auf die genomische Diversität von Prokaryoten; 3) die Bestimmung natürlicher Schwellenwerte der Genomsequenzähnlichkeit zwischen Spezies, auch anhand von Genkatalogen; 4) die Untersuchung der Abgrenzung zwischen Spezies, Sub-Spezies und Stämmen mithilfe metagenomischer Daten. Im ersten Teil der Arbeit werden Methoden zur Bestimmung ökologischer Präferenzen mikrobieller Spezies beschrieben. Die so gewonnenen Daten dienen in der Folge als Grundlage für die Quantifizierung von Umwelt- und evolutionsgeschichtlichen Einflüssen auf die Struktur und Evolution bakterieller Pan-Genome im zweiten Teil der Arbeit. Ein zentrales Ergebnis dieser Untersuchung war, dass bis zu 49% der strukturellen Varianz in Pan-Genomen durch Habitatpräferenzen erklärt werden kann, im Gegensatz zu lediglich 18% durch phylogenetische Trägheitseffekte. Dies zeigt, dass die Größe und Diversität von Pan-Genomen nicht phylogenetisch limitiert ist, insbesondere in Fällen von konvergenter Evolution. Große Kern-Genome sind ferner mit einer weiten ökologischen Verbreitung von Spezies assoziiert; eine mögliche Erklärung ist, dass weit verbreitete Spezies vielseitigere Genome mit mehr notwendigen Genen besitzen, die ein Überleben in vielfältigen Umgebungen ermöglichen. Die vorgelegte Arbeit kann weiterhin einen Beitrag zur Vorhersage ökologischer Profile neu beschriebener Spezies leisten. Im dritten Teil der Arbeit werden datenbezogene, operationelle Definition von Spezies-Grenzen untersucht. Es konnte gezeigt werden, dass Gene verschiedener Genome innerhalb derselben Spezies normalerweise mindestens 95% Ähnlichkeit der Nukleotidsequenz aufweisen, während die Ähnlichkeit zwischen Spezies desselben Genus geringer ausfällt. Dieser Wert liegt im Rahmen früherer Schätzungen. Der vierte Teil der Arbeit beschreibt abschließend die Herausforderungen bei der Bestimmung von evolutionären Linien innerhalb von Spezies und diskutiert anschließend, wie konzeptionelle Entwicklungen in dieser Frage für die Klassifizierung und Quantifizierung von Diversität anhand metagenomischer Daten genutzt werden kann. KW - Pangenom KW - phylogenetische Trägheit KW - Lebensraum KW - Stammvielfalt KW - mikrobielle Ökologie und Evolution KW - pangenome KW - phylogenetic inertia KW - habitat KW - strain diversity KW - microbial ecology and evolution KW - metagenomics Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-214996 ER -