• search hit 1 of 1
Back to Result List

A draft genome for the Venus flytrap, Dionaea muscipula : Evaluation of assembly strategies for a complex Genome – Development of novel approaches and bioinformatics solutions

Ein Genom für die Venus Fliegenfalle, Dionaea muscipula

Please always quote using this URN: urn:nbn:de:bvb:20-opus-133149
  • The Venus flytrap, \textit{Dionaea muscipula}, with its carnivorous life-style and its highly specialized snap-traps has fascinated biologist since the days of Charles Darwin. The goal of the \textit{D. muscipula} genome project is to gain comprehensive insights into the genomic landscape of this remarkable plant. The genome of the diploid Venus flytrap with an estimated size between 2.6 Gbp to 3.0 Gbp is comparatively large and comprises more than 70 % of repetitive regions. Sequencing and assembly of genomes of this scale are evenThe Venus flytrap, \textit{Dionaea muscipula}, with its carnivorous life-style and its highly specialized snap-traps has fascinated biologist since the days of Charles Darwin. The goal of the \textit{D. muscipula} genome project is to gain comprehensive insights into the genomic landscape of this remarkable plant. The genome of the diploid Venus flytrap with an estimated size between 2.6 Gbp to 3.0 Gbp is comparatively large and comprises more than 70 % of repetitive regions. Sequencing and assembly of genomes of this scale are even with state-of-the-art technology and software challenging. Initial sequencing and assembly of the genome was performed by the BGI (Beijing Genomics Institute) in 2011 resulting in a 3.7 Gbp draft assembly. I started my work with thorough assessment of the delivered assembly and data. My analysis showed that the BGI assembly is highly fragmented and at the same time artificially inflated due to overassembly of repetitive sequences. Furthermore, it only comprises about on third of the expected genes in full-length, rendering it inadequate for downstream analysis. In the following I sought to optimize the sequencing and assembly strategy to obtain an assembly of higher completeness and contiguity by improving data quality and assembly procedure and by developing tailored bioinformatics tools. Issues with technical biases and high levels of heterogeneity in the original data set were solved by sequencing additional short read libraries from high quality non-polymorphic DNA samples. To address contiguity and heterozygosity I examined numerous alternative assembly software packages and strategies and eventually identified ALLPATHS-LG as the most suited program for assembling the data at hand. Moreover, by utilizing digital normalization to reduce repetitive reads, I was able to substantially reduce computational demands while at the same time significantly increasing contiguity of the assembly. To improve repeat resolution and scaffolding, I started to explore the novel PacBio long read sequencing technology. Raw PacBio reads exhibit high error rates of 15 % impeding their use for assembly. To overcome this issue, I developed the PacBio hybrid correction pipeline proovread (Hackl et al., 2014). proovread uses high coverage Illumina read data in an iterative mapping-based consensus procedure to identify and remove errors present in raw PacBio reads. In terms of sensitivity and accuracy, proovread outperforms existing software. In contrast to other correction programs, which are incapable of handling data sets of the size of D. muscipula project, proovread’s flexible design allows for the efficient distribution of work load on high-performance computing clusters, thus enabling the correction of the Venus flytrap PacBio data set. Next to the assembly process itself, also the assessment of the large de novo draft assemblies, particularly with respect to coverage by available sequencing data, is difficult. While typical evaluation procedures rely on computationally extensive mapping approaches, I developed and implemented a set of tools that utilize k-mer coverage and derived values to efficiently compute coverage landscapes of large-scale assemblies and in addition allow for automated visualization of the of the obtained information in comprehensive plots. Using the developed tools to analyze preliminary assemblies and by combining my findings regarding optimizations of the assembly process, I was ultimately able to generate a high quality draft assembly for D. muscipula. I further refined the assembly by removal of redundant contigs resulting from separate assembly of heterozygous regions and additional scaffolding and gapclosing using corrected PacBio data. The final draft assembly comprises 86 × 10 3 scaffolds and has a total size of 1.45 Gbp. The difference to the estimated genomes size is well explained by collapsed repeats. At the same time, the assembly exhibits high fractions full-length gene models, corroborating the interpretation that the obtained draft assembly provides a complete and comprehensive reference for further exploration of the fascinating biology of the Venus flytrap.show moreshow less
  • Die Venus Fliegenfalle, D. muscipula fasziniert aufgrund ihres karnivoren Lebensstil und ihrer hochspezialisierten Fallen Biologen schon seit der Zeit von Charles Darwins. Das Ziel des D. muscipula Genomprojekts ist es, neue Einblicke in den genomischen Grundlagen dieser besonderen Pflanze zu gewinnen. Die diploide Venus Fliegenfalle verfügt mit eine geschätzten Größe von 2.6 bp bis 3Gbp über ein vergleichsweise großes Genom, das zudem zu über 70% aus repetitiven Regionen besteht. Sequenzierung und Assembly von GenomenDie Venus Fliegenfalle, D. muscipula fasziniert aufgrund ihres karnivoren Lebensstil und ihrer hochspezialisierten Fallen Biologen schon seit der Zeit von Charles Darwins. Das Ziel des D. muscipula Genomprojekts ist es, neue Einblicke in den genomischen Grundlagen dieser besonderen Pflanze zu gewinnen. Die diploide Venus Fliegenfalle verfügt mit eine geschätzten Größe von 2.6 bp bis 3Gbp über ein vergleichsweise großes Genom, das zudem zu über 70% aus repetitiven Regionen besteht. Sequenzierung und Assembly von Genomen dieser Größenordnung stellen selbst mit neusten technischen und informatischen Methoden eine große Herausforderung dar. Zum ersten mal sequenziert und assembliert wurde das Genom 2011 durch das BGI (Beijing Genomics Institute). Meine Arbeit am Genom der Fliegenfalle begann mit der Analyse des 3.7Gbp großen Assemblies, welches wir vom BGI erhalten haben. Mit meinen Untersuchungen könnte ich zeigen, dass das Assembly stark fragmentiert und gleichzeitig durch überrepräsentierte repetitive Sequenzen stark aufgebläht ist. Darüberhinaus beinhaltet es gerade ein mal eine drittel der erwarteten Gene in Volllänge, wodurch es für die weiter Analyse ungeeignet ist. In meiner weiteren Arbeit habe ich mich daher darauf konzentriert, unsere Sequenzierungsund Assemblierungsstrategie zu verfeinern um ein stärker zusammenhängendes und vollständigeres Assembly zu erhalten. Dafür war es notwendig die Qualität der Sequenzierdaten so wie den Assemblierungsprozess selbst zu optimieren, und Programme zu entwickeln, die eine Verbesserung der Daten und eine Analyse der Zwischenergebnisse ermöglichen. So wurden etwa zur neue Bibliotheken von nicht-polymorphen DNA-Proben sequenziert um die Heterogenität im Datensatz zu verringern. Um die Kontinuität der Assemblies zu verbessern und Probleme mit der Heterozygosität der Daten zu lösen habe ich eine Reihe verschiedener Assemblierungsprogramme getestet. Dabei zeigte sich, dass das Programm ALLPATHS-LG am besten geeignet ist für die Assemblierung von D. muscipula Daten. Durch den Einsatz von digitaler Normalisierung konnte ich den Bedarf an Computerressourcen für einzelne Assemblierungen deutlich reduzieren und gleichzeitig die Kontinuität der Assemblies deutlich erhöhen. Zur besseren Auflösung repetitiver Strukturen im Genom, habe ich auf eine neu entwickelte Sequenziertechnologie von PacBio zurückgegriffen, die deutlich länger Sequenzen erzeugt. Um die neuen Daten trotz ihrer hohen Fehlerrate von 15% für Assemblierungen nutzen zu können, entwickelte ich das Korrekturprogramm proovread (Hackl et al., 2014). proovread nutzt kurze Illumina Sequenzen mit hoher Sequenziertiefe um innerhalb eines iterativen Prozess Fehler in PacBio Daten ausfindig zu machen und zu korrigieren. Das Programm erreicht dabei eine bessere Genauigkeit und eine höhere Sensitivität als vergleichbare Software. Darüber hinaus erlaubt sein flexibles Design auch Datensätze in der Größenordung des Fliegenfallengenoms effizient auf großen Rechenclustern zu bearbeiten. Neben dem Assemblierungsprozess an sich, stellt auch die Analyse von Assemblies großer Genome eine Herausforderung dar. Klassische Methoden basieren oft auf der rechenintensiven Berechnung von Alignments zwischen Sequenzierdaten und Assembly. Um vergleichbare Analysen deutlich schneller generieren zu können, habe ich Programme entwickelt die auf der Auswertung von k-mer Häufigkeiten beruhen, und die gewonnenen Ergebnisse in übersichtlichen Graphiken darstellen. Durch Kombination der so gewonnenen Einblicke und der verschiedenen Erkenntnisse bezüglich der Optimierung es Assemblierungsprozesses, war es mir am Ende möglich, ein Assembly von hoher Qualität für das Genom der Venus Fliegenfalle zu rekonstruieren. Dieses habe ich weiter verfeinert, unter anderem durch das Entfernen heterozygoter Sequenzen und durch das Flicken von Lücken mit Hilfe von PacBio Daten. Das so erstelle Assembly besteht aus 86 × 103 Sequenzen und hat eine Gesamtgröße von 1.45Gbp. Der Unterschied zur erwarteten Genomgröße lässt sich dabei gut durch kollabierte repetitive Regionen erklären. Gleichzeitig untermauert ein hoher Anteil an Volllängengenen im Assembly die Interpretation, dass das vorliegende Assembly eine vollständiges und umfassendes Abbild der D. muscipula Genom zeigt, und dass es sich damit als gute Grundlage für weitere Untersuchungen zur Biologie dieser faszinierenden Pflanze eignet.show moreshow less

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar Statistics
Metadaten
Author: Thomas Hackl
URN:urn:nbn:de:bvb:20-opus-133149
Document Type:Doctoral Thesis
Granting Institution:Universität Würzburg, Fakultät für Biologie
Faculties:Fakultät für Biologie / Theodor-Boveri-Institut für Biowissenschaften
Referee:Prof. Dr. Jörg Schultz, Prof. Dr. Rainer Hedrich
Date of final exam:2016/04/05
Language:English
Year of Completion:2016
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 570 Biowissenschaften; Biologie
GND Keyword:Venusfliegenfalle; Genom
Tag:genome assembly; heterozygosity; pacbio correction; repeats
Release Date:2016/05/11
Licence (German):License LogoDeutsches Urheberrecht