13314
2016
eng
doctoralthesis
1
2016-03-05
--
2016-04-05
A draft genome for the Venus flytrap, Dionaea muscipula : Evaluation of assembly strategies for a complex Genome – Development of novel approaches and bioinformatics solutions
Ein Genom für die Venus Fliegenfalle, Dionaea muscipula
The Venus flytrap, \textit{Dionaea muscipula}, with its carnivorous life-style and its highly
specialized snap-traps has fascinated biologist since the days of Charles Darwin. The
goal of the \textit{D. muscipula} genome project is to gain comprehensive insights into the
genomic landscape of this remarkable plant.
The genome of the diploid Venus flytrap with an estimated size between 2.6 Gbp to
3.0 Gbp is comparatively large and comprises more than 70 % of repetitive regions.
Sequencing and assembly of genomes of this scale are even with state-of-the-art
technology and software challenging. Initial sequencing and assembly of the genome
was performed by the BGI (Beijing Genomics Institute) in 2011 resulting in a 3.7 Gbp
draft assembly. I started my work with thorough assessment of the delivered assembly
and data. My analysis showed that the BGI assembly is highly fragmented and
at the same time artificially inflated due to overassembly of repetitive sequences.
Furthermore, it only comprises about on third of the expected genes in full-length,
rendering it inadequate for downstream analysis.
In the following I sought to optimize the sequencing and assembly strategy to obtain
an assembly of higher completeness and contiguity by improving data quality and
assembly procedure and by developing tailored bioinformatics tools. Issues with
technical biases and high levels of heterogeneity in the original data set were solved
by sequencing additional short read libraries from high quality non-polymorphic DNA
samples. To address contiguity and heterozygosity I examined numerous alternative
assembly software packages and strategies and eventually identified ALLPATHS-LG
as the most suited program for assembling the data at hand. Moreover, by utilizing
digital normalization to reduce repetitive reads, I was able to substantially reduce
computational demands while at the same time significantly increasing contiguity of
the assembly.
To improve repeat resolution and scaffolding, I started to explore the novel PacBio
long read sequencing technology. Raw PacBio reads exhibit high error rates of 15 %
impeding their use for assembly. To overcome this issue, I developed the PacBio
hybrid correction pipeline proovread (Hackl et al., 2014). proovread uses high
coverage Illumina read data in an iterative mapping-based consensus procedure to
identify and remove errors present in raw PacBio reads. In terms of sensitivity and
accuracy, proovread outperforms existing software. In contrast to other correction
programs, which are incapable of handling data sets of the size of D. muscipula
project, proovread’s flexible design allows for the efficient distribution of work load on high-performance computing clusters, thus enabling the correction of the Venus
flytrap PacBio data set.
Next to the assembly process itself, also the assessment of the large de novo draft
assemblies, particularly with respect to coverage by available sequencing data, is
difficult. While typical evaluation procedures rely on computationally extensive
mapping approaches, I developed and implemented a set of tools that utilize k-mer
coverage and derived values to efficiently compute coverage landscapes of large-scale
assemblies and in addition allow for automated visualization of the of the obtained
information in comprehensive plots.
Using the developed tools to analyze preliminary assemblies and by combining my
findings regarding optimizations of the assembly process, I was ultimately able to
generate a high quality draft assembly for D. muscipula. I further refined the assembly
by removal of redundant contigs resulting from separate assembly of heterozygous
regions and additional scaffolding and gapclosing using corrected PacBio data. The
final draft assembly comprises 86 × 10 3 scaffolds and has a total size of 1.45 Gbp.
The difference to the estimated genomes size is well explained by collapsed repeats.
At the same time, the assembly exhibits high fractions full-length gene models,
corroborating the interpretation that the obtained draft assembly provides a complete
and comprehensive reference for further exploration of the fascinating biology of the
Venus flytrap.
Die Venus Fliegenfalle, D. muscipula fasziniert aufgrund ihres karnivoren Lebensstil
und ihrer hochspezialisierten Fallen Biologen schon seit der Zeit von Charles Darwins.
Das Ziel des D. muscipula Genomprojekts ist es, neue Einblicke in den genomischen
Grundlagen dieser besonderen Pflanze zu gewinnen.
Die diploide Venus Fliegenfalle verfügt mit eine geschätzten Größe von 2.6 bp
bis 3Gbp über ein vergleichsweise großes Genom, das zudem zu über 70% aus
repetitiven Regionen besteht. Sequenzierung und Assembly von Genomen dieser
Größenordnung stellen selbst mit neusten technischen und informatischen Methoden
eine große Herausforderung dar. Zum ersten mal sequenziert und assembliert wurde
das Genom 2011 durch das BGI (Beijing Genomics Institute). Meine Arbeit am
Genom der Fliegenfalle begann mit der Analyse des 3.7Gbp großen Assemblies,
welches wir vom BGI erhalten haben. Mit meinen Untersuchungen könnte ich zeigen,
dass das Assembly stark fragmentiert und gleichzeitig durch überrepräsentierte
repetitive Sequenzen stark aufgebläht ist. Darüberhinaus beinhaltet es gerade ein
mal eine drittel der erwarteten Gene in Volllänge, wodurch es für die weiter Analyse
ungeeignet ist.
In meiner weiteren Arbeit habe ich mich daher darauf konzentriert, unsere Sequenzierungsund
Assemblierungsstrategie zu verfeinern um ein stärker zusammenhängendes und
vollständigeres Assembly zu erhalten. Dafür war es notwendig die Qualität der Sequenzierdaten
so wie den Assemblierungsprozess selbst zu optimieren, und Programme zu
entwickeln, die eine Verbesserung der Daten und eine Analyse der Zwischenergebnisse
ermöglichen. So wurden etwa zur neue Bibliotheken von nicht-polymorphen
DNA-Proben sequenziert um die Heterogenität im Datensatz zu verringern. Um die
Kontinuität der Assemblies zu verbessern und Probleme mit der Heterozygosität der
Daten zu lösen habe ich eine Reihe verschiedener Assemblierungsprogramme getestet.
Dabei zeigte sich, dass das Programm ALLPATHS-LG am besten geeignet ist für die
Assemblierung von D. muscipula Daten. Durch den Einsatz von digitaler Normalisierung
konnte ich den Bedarf an Computerressourcen für einzelne Assemblierungen
deutlich reduzieren und gleichzeitig die Kontinuität der Assemblies deutlich erhöhen.
Zur besseren Auflösung repetitiver Strukturen im Genom, habe ich auf eine neu
entwickelte Sequenziertechnologie von PacBio zurückgegriffen, die deutlich länger
Sequenzen erzeugt. Um die neuen Daten trotz ihrer hohen Fehlerrate von 15%
für Assemblierungen nutzen zu können, entwickelte ich das Korrekturprogramm
proovread (Hackl et al., 2014). proovread nutzt kurze Illumina Sequenzen mit hoher Sequenziertiefe um innerhalb eines iterativen Prozess Fehler in PacBio Daten ausfindig
zu machen und zu korrigieren. Das Programm erreicht dabei eine bessere Genauigkeit
und eine höhere Sensitivität als vergleichbare Software. Darüber hinaus erlaubt sein
flexibles Design auch Datensätze in der Größenordung des Fliegenfallengenoms
effizient auf großen Rechenclustern zu bearbeiten.
Neben dem Assemblierungsprozess an sich, stellt auch die Analyse von Assemblies
großer Genome eine Herausforderung dar. Klassische Methoden basieren oft auf
der rechenintensiven Berechnung von Alignments zwischen Sequenzierdaten und
Assembly. Um vergleichbare Analysen deutlich schneller generieren zu können, habe
ich Programme entwickelt die auf der Auswertung von k-mer Häufigkeiten beruhen,
und die gewonnenen Ergebnisse in übersichtlichen Graphiken darstellen.
Durch Kombination der so gewonnenen Einblicke und der verschiedenen Erkenntnisse
bezüglich der Optimierung es Assemblierungsprozesses, war es mir am Ende
möglich, ein Assembly von hoher Qualität für das Genom der Venus Fliegenfalle
zu rekonstruieren. Dieses habe ich weiter verfeinert, unter anderem durch das Entfernen
heterozygoter Sequenzen und durch das Flicken von Lücken mit Hilfe von
PacBio Daten. Das so erstelle Assembly besteht aus 86 × 103 Sequenzen und hat
eine Gesamtgröße von 1.45Gbp. Der Unterschied zur erwarteten Genomgröße
lässt sich dabei gut durch kollabierte repetitive Regionen erklären. Gleichzeitig untermauert
ein hoher Anteil an Volllängengenen im Assembly die Interpretation, dass das
vorliegende Assembly eine vollständiges und umfassendes Abbild der D. muscipula
Genom zeigt, und dass es sich damit als gute Grundlage für weitere Untersuchungen
zur Biologie dieser faszinierenden Pflanze eignet.
urn:nbn:de:bvb:20-opus-133149
X 126528
Deutsches Urheberrecht
Thomas Hackl
deu
swd
Venusfliegenfalle
eng
uncontrolled
genome assembly
eng
uncontrolled
repeats
eng
uncontrolled
heterozygosity
eng
uncontrolled
pacbio correction
deu
swd
Genom
Biowissenschaften; Biologie
open_access
Theodor-Boveri-Institut für Biowissenschaften
Universität Würzburg
Universität Würzburg
https://opus.bibliothek.uni-wuerzburg.de/files/13314/Dissertation_Hackl_Thomas.pdf
15710
2018
eng
doctoralthesis
1
2018-01-27
--
2018-01-24
Genetic foundation of unrivaled survival strategies - Of water bears and carnivorous plants -
Genetische Grundlagen einzigartiger Überlebensstrategien - Über Bärtierchen und fleischfressende Pflanzen -
All living organisms leverage mechanisms and response systems to optimize reproduction, defense, survival, and competitiveness within their natural habitat. Evolutionary theories such as the universal adaptive strategy theory (UAST) developed by John Philip Grime (1979) attempt to describe how these systems are limited by the trade-off between growth, maintenance and regeneration; known as the universal three-way trade-off. Grime introduced three adaptive strategies that enable organisms to coop with either high or low intensities of stress (e.g., nutrient deficiency) and environmental disturbance (e.g., seasons). The competitor is able to outcompete other organisms by efficiently tapping available resources in environments of low intensity stress and disturbance (e.g., rapid growers). A ruderal specism is able to rapidly complete the life cycle especially during high intensity disturbance and low intensity stress (e.g., annual colonizers). The stress tolerator is able to respond to high intensity stress with physiological variability but is limited to low intensity disturbance environments. Carnivorous plants like D. muscipula and tardigrades like M. tardigradum are two extreme examples for such stress tolerators. D. muscipula traps insects in its native habitat (green swamps in North and South Carolina) with specialized leaves and thereby is able to tolerate nutrient deficient soils. M. tardigradum on the other side, is able to escape desiccation of its terrestrial habitat like mosses and lichens which are usually covered by a water film but regularly fall completely dry. The stress tolerance of the two species is the central study object of this thesis. In both cases, high througput sequencing data and methods were used to test for transcriptomic (D. muscipula) or genomic adaptations (M. tardigradum) which underly the stress tolerance. A new hardware resource including computing cluster and high availability storage system was implemented in the first months of the thesis work to effectively analyze the vast amounts of data generated for both projects. Side-by-side, the data management resource TBro [14] was established together with students to intuitively approach complex biological questions and enhance collaboration between researchers of several different disciplines. Thereafter, the unique trapping abilities of D. muscipula were studied using a whole transcriptome approach. Prey-dependent changes of the transcriptional landscape as well as individual tissue-specific aspects of the whole plant were studied. The analysis revealed that non-stimulated traps of D. muscipula exhibit the expected hallmarks of any typical leaf but operates evolutionary conserved stress-related pathways including defense-associated responses when digesting prey. An integrative approach, combining proteome and transcriptome data further enabled the detailed description of the digestive cocktail and the potential nutrient uptake machinery of the plant. The published work [25] as well as a accompanying video material (https://www.eurekalert.org/pub_releases/ 2016-05/cshl-fgr042816.php; Video credit: Sönke Scherzer) gained global press coverage and successfully underlined the advantages of D. muscipula as experimental system to understand the carnivorous syndrome. The analysis of the peculiar stress tolerance of M. tardigradum during cryptobiosis was carried out using a genomic approach. First, the genome size of M. tardigradum was estimated, the genome sequenced, assembled and annotated. The first draft of M. tardigradum and the workflow used to established its genome draft helped scrutinizing the first ever released tardigrade genome (Hypsibius dujardini) and demonstrated how (bacterial) contamination can influence whole genome analysis efforts [27]. Finally, the
M. tardigradum genome was compared to two other tardigrades and all species present in the current release of the Ensembl Metazoa database. The analysis revealed that tardigrade genomes are not that different from those of other Ecdysozoa. The availability of the three genomes allowed the delineation of their phylogenetic position within the Ecdysozoa and placed them as sister taxa to the nematodes. Thereby, the comparative analysis helped to identify evolutionary trends within this metazoan lineage. Surprisingly, the analysis did not reveal general mechanisms (shared by all available tardigrade genomes) behind the arguably most peculiar feature of tardigrades; their enormous stress tolerance. The lack of molecular evidence for individual tardigrade species (e.g., gene expression data for M. tardigradum) and the non-existence of a universal experimental framework which enables hypothesis testing withing the whole phylum Tardigrada, made it nearly impossible to link footprints of genomic adaptations to the unusual physiological capabilities. Nevertheless, the (comparative) genomic framework established during this project will help to understand how evolution tinkered, rewired and modified existing molecular systems to shape the remarkable phenotypic features of tardigrades.
Alle lebenden Organismen verwenden Mechanismen und Rückkopplungssysteme um Reproduktion, Überlebenswahrscheinlichkeit, Abwehreffizienz und Konkurrenzfähigkeit in ihrem natürlichen Habitat zu optimieren. Evolutionäre Theorien, wie die von John Philip Grime (1979) entwickelte „universal adaptive strategy theory“ (UAST), versuchen zu beschreiben wie diese Systeme durch eine Balance zwischen Wachstum, Erhaltung und Regeneration, auch gemeinhin bekannt als universeller Dreiwege-Ausgleich, des jeweiligen Organismus limitiert sind. Grime führte dazu drei adaptive Strategien ein, die es Organismen ermöglicht sich an hohe oder niedrige Stress-Intensitäten (z.B. Nahrungsknappheit) oder umweltbedingte Beeinträchtigung (z.B. Jahreszeiten) anzupassen. Der Wettkämpfer ist in der Lage seine Konkurrenz durch eine effiziente Ressourcengewinnung zu überflügeln und ist vor allem bei niedrigem Stresslevel und minimalen umweltbedingten Beeinträchtigungen effizient (z. B. schnelles Wachstum). Ruderale Organismen hingegen durchlaufen den Leben- szyklus in kurzer Zeit und sind damit perfekt an starke umweltbedingte Beeinträchtigungen, wie zum Beispiel Jahreszeiten, angepasst. Allerdings können auch sie nur bei niedrigen Stresslevel effizient wachsen. Die letzte Gruppe von Organismen, die Stresstoleranten sind in der Lage sich an hohen Stressintensitäten mithilfe extremer physiologischer Variabilität anzupassen, können das allerdings nur in Umgebungen mit niedrigen umweltbedingten Beeinträchtigungen. Fleischfressende Pflanzen wie die Venusfliegenfalle (D. muscipula) oder Bärtierchen (M. tardigradum) sind zwei herausragende Beispiele für stresstolerante Organismen. Die Venusfliegenfalle ist in der Lage Insekten mit spezialisierten Blätter, welche eine einzigartige Falle bilden, zu fangen. Die Pflanze kompensiert so die stark verminderte Mengen an wichtigen Makronährstoffen (z.B. Stickstoff) in den Sümpfen von Nord- und Süd-Carolina. Bärtierchen dagegen sind in der Lage in schnell austrocknenden Habitaten wie Moosen oder Flechten, die normalerweise mit einem Wasserfilm überzogen sind, durch eine gesteuerte Entwässerung ihres Körpers zu überleben. Die Stresstoleranz beider Spezies ist zentraler Forschungsschwerpunkt dieser Dissertation. In beiden Fällen wer- den Hochdurchsatz-Methoden zur Sequenzierung verwendet um genomische (Bärtierchen) sowie transkriptomische (Venusfliegenfalle) Anpassungen zu identifizieren, die der enorem Stresstoleranz zugrunde liegen. Um den erhöhten technischen Anforderungen der Datenanal- ysen beider Projekte Rechnung zu tragen wurde in den ersten Monaten der Dissertation eine neue zentrale Rechenumgebung und ein dazugehöriges Speichersystem etabliert. Parallel wurde die Datenmanagementplattform TBro [14] zusammen mit Studenten aufgesetzt, um komplexe biologische Fragestellung mit einem fachübergreifendem Kollegium zu bearbeiten. Danach wurden die einzigartigen Fangfähigkeiten der Venusfliegenfalle mittels einem tran- skriptomischen Ansatz untersucht. Vor allem wurden transkriptionelle Änderungen infolge eines Beutefangs sowie gewebespezifische Aspekte der ruhenden Pflanzen untersucht. Die Analyse zeigte deutlich, dass die Fallen der fleischfressenden Pflanze immer noch Merkmale von typischen „grünen“ Blättern aufweisen. Während des Beutefangs und -verdauens jedoch wird eine Vielzahl an evolutionär konservierten Systemen aktiviert, die bisher nur mit Stres- santworten und zellulärer Verteidigung in Verbindung gebracht worden sind. Die Integration von proteomischen und transkriptomischen Hochdurchsatzdaten ermöglichte es zudem den Verdauungssaft der Venusfliegenfalle genaustens zu beschreiben und wichtige Komponenten der Aufnahmemaschinerie zu identifizieren. Die wissenschaftliche Arbeit [25] und das beglei- tende Videomaterial (https://www.eurekalert.org/pub_releases/2016-05/cshl-fgr042816.php; Video credit: Sönke Scherzer) erfreute sich einer breiten Berichterstattung in den Medien und unterstreicht die Vorteile der Venusfliegenfalle als experimentelles System um fleis- chfressende Pflanzen besser zu verstehen. Die genomische Analyse des Bärtierchen (M. tardigradum) zielte auf die außerordentliche Stresstoleranz, vor allem auf die Kryptobiose, einen Zustand in dem Stoffwechselvorgänge extrem reduziert sind, ab. Dazu wurden das komplette genetische Erbgut (Genom) entschlüsselt. Die Größe des Genomes wurde bes- timmt und das Erbgut mittels Sequenzierung entschlüsselt. Die gewonnenen Daten wurden zu einer kontinuierlichen Sequenz zusammengesetzt und Gene identifiziert. Der dabei etablierte Arbeitsablauf wurde verwendet um ein weiteres Bärtierchengenom genau zu überprüfen. Im Rahmen dieser Analyse stellte sich heraus, dass eine große Anzahl an Kontaminationen im Genom von H. dujardini vorhanden sind [27]. Das neu etablierte Genom von M. tardigradum wurde im folgenden verwendet um einen speziesübergreifenden Vergleich dreier Bärtierchen und aller Spezies aus der Metazoadatenbank von Ensembl durchzuführen. Die Analyse zeigte, dass Bärtierchengenome sehr viel Ähnlichkeit zu den bereits veröffentlichten Genomen aus dem Überstamm der Urmünder (Protostomia) aufweisen. Die erstmalige Verfügbarkeit aller Bärtierchengenome ermöglichte es zudem, das Phylum der Bärtierchen als Schwester der Nematoden mittels einer phylogenomische Analyse zu platzieren. Die vergleichende Anal- yse identifizierte außerdem zentrale evolutionäre Trends, vor allem einen enormen Verlust an Genen in dieser Linie der Metazoa. Die Analyse ermöglichte es aber nicht, generelle Mechanismen, die zur enormen Stresstoleranz in Bärtierchen führen, artübergreifend zu identifizieren. Vor allem das Fehlen von weiteren molekularen Daten für einzelne Bärtierchen- spezies (z.B. transkriptionelle Daten für M. tardigradum) machten es unmöglich die wenigen genomische Adaptionen mit den physiologischen Besonderheiten der Bärtierchen in Deckung zu bringen. Nichtsdestotrotz konnten die vergleichenden Analysen zeigen, dass Evolution auch innerhalb der Bärtierchen verschiedenste Systeme neu zusammensetzt, neue Funktionen erschafft oder bestehenden Systeme modifiziert und damit die außerordentliche phänotypis- che Variabilität ermöglicht.
urn:nbn:de:bvb:20-opus-157109
X 127583
CC BY-NC-SA: Creative-Commons-Lizenz: Namensnennung, Nicht kommerziell, Weitergabe unter gleichen Bedingungen 4.0 International
Felix Mathias Bemm
eng
uncontrolled
transcriptome
eng
uncontrolled
venus
eng
uncontrolled
flytrap
eng
uncontrolled
defense
eng
uncontrolled
secretion
eng
uncontrolled
jasmonate
deu
swd
Bärtierchen
deu
swd
Genom
deu
swd
Stressresistenz
deu
swd
Venusfliegenfalle
deu
swd
Proteom
deu
swd
Transkriptom
Biowissenschaften; Biologie
open_access
Graduate School of Life Sciences
Theodor-Boveri-Institut für Biowissenschaften
Universität Würzburg
Universität Würzburg
https://opus.bibliothek.uni-wuerzburg.de/files/15710/Bemm_Felix_Mathias_unrivaled_survival_strategies.pdf
https://opus.bibliothek.uni-wuerzburg.de/files/15710/Bemm_Felix_Mathias_Dissertation_Erratum.pdf