TY - THES A1 - Hackl, Thomas T1 - A draft genome for the Venus flytrap, Dionaea muscipula : Evaluation of assembly strategies for a complex Genome – Development of novel approaches and bioinformatics solutions T1 - Ein Genom für die Venus Fliegenfalle, Dionaea muscipula N2 - The Venus flytrap, \textit{Dionaea muscipula}, with its carnivorous life-style and its highly specialized snap-traps has fascinated biologist since the days of Charles Darwin. The goal of the \textit{D. muscipula} genome project is to gain comprehensive insights into the genomic landscape of this remarkable plant. The genome of the diploid Venus flytrap with an estimated size between 2.6 Gbp to 3.0 Gbp is comparatively large and comprises more than 70 % of repetitive regions. Sequencing and assembly of genomes of this scale are even with state-of-the-art technology and software challenging. Initial sequencing and assembly of the genome was performed by the BGI (Beijing Genomics Institute) in 2011 resulting in a 3.7 Gbp draft assembly. I started my work with thorough assessment of the delivered assembly and data. My analysis showed that the BGI assembly is highly fragmented and at the same time artificially inflated due to overassembly of repetitive sequences. Furthermore, it only comprises about on third of the expected genes in full-length, rendering it inadequate for downstream analysis. In the following I sought to optimize the sequencing and assembly strategy to obtain an assembly of higher completeness and contiguity by improving data quality and assembly procedure and by developing tailored bioinformatics tools. Issues with technical biases and high levels of heterogeneity in the original data set were solved by sequencing additional short read libraries from high quality non-polymorphic DNA samples. To address contiguity and heterozygosity I examined numerous alternative assembly software packages and strategies and eventually identified ALLPATHS-LG as the most suited program for assembling the data at hand. Moreover, by utilizing digital normalization to reduce repetitive reads, I was able to substantially reduce computational demands while at the same time significantly increasing contiguity of the assembly. To improve repeat resolution and scaffolding, I started to explore the novel PacBio long read sequencing technology. Raw PacBio reads exhibit high error rates of 15 % impeding their use for assembly. To overcome this issue, I developed the PacBio hybrid correction pipeline proovread (Hackl et al., 2014). proovread uses high coverage Illumina read data in an iterative mapping-based consensus procedure to identify and remove errors present in raw PacBio reads. In terms of sensitivity and accuracy, proovread outperforms existing software. In contrast to other correction programs, which are incapable of handling data sets of the size of D. muscipula project, proovread’s flexible design allows for the efficient distribution of work load on high-performance computing clusters, thus enabling the correction of the Venus flytrap PacBio data set. Next to the assembly process itself, also the assessment of the large de novo draft assemblies, particularly with respect to coverage by available sequencing data, is difficult. While typical evaluation procedures rely on computationally extensive mapping approaches, I developed and implemented a set of tools that utilize k-mer coverage and derived values to efficiently compute coverage landscapes of large-scale assemblies and in addition allow for automated visualization of the of the obtained information in comprehensive plots. Using the developed tools to analyze preliminary assemblies and by combining my findings regarding optimizations of the assembly process, I was ultimately able to generate a high quality draft assembly for D. muscipula. I further refined the assembly by removal of redundant contigs resulting from separate assembly of heterozygous regions and additional scaffolding and gapclosing using corrected PacBio data. The final draft assembly comprises 86 × 10 3 scaffolds and has a total size of 1.45 Gbp. The difference to the estimated genomes size is well explained by collapsed repeats. At the same time, the assembly exhibits high fractions full-length gene models, corroborating the interpretation that the obtained draft assembly provides a complete and comprehensive reference for further exploration of the fascinating biology of the Venus flytrap. N2 - Die Venus Fliegenfalle, D. muscipula fasziniert aufgrund ihres karnivoren Lebensstil und ihrer hochspezialisierten Fallen Biologen schon seit der Zeit von Charles Darwins. Das Ziel des D. muscipula Genomprojekts ist es, neue Einblicke in den genomischen Grundlagen dieser besonderen Pflanze zu gewinnen. Die diploide Venus Fliegenfalle verfügt mit eine geschätzten Größe von 2.6 bp bis 3Gbp über ein vergleichsweise großes Genom, das zudem zu über 70% aus repetitiven Regionen besteht. Sequenzierung und Assembly von Genomen dieser Größenordnung stellen selbst mit neusten technischen und informatischen Methoden eine große Herausforderung dar. Zum ersten mal sequenziert und assembliert wurde das Genom 2011 durch das BGI (Beijing Genomics Institute). Meine Arbeit am Genom der Fliegenfalle begann mit der Analyse des 3.7Gbp großen Assemblies, welches wir vom BGI erhalten haben. Mit meinen Untersuchungen könnte ich zeigen, dass das Assembly stark fragmentiert und gleichzeitig durch überrepräsentierte repetitive Sequenzen stark aufgebläht ist. Darüberhinaus beinhaltet es gerade ein mal eine drittel der erwarteten Gene in Volllänge, wodurch es für die weiter Analyse ungeeignet ist. In meiner weiteren Arbeit habe ich mich daher darauf konzentriert, unsere Sequenzierungsund Assemblierungsstrategie zu verfeinern um ein stärker zusammenhängendes und vollständigeres Assembly zu erhalten. Dafür war es notwendig die Qualität der Sequenzierdaten so wie den Assemblierungsprozess selbst zu optimieren, und Programme zu entwickeln, die eine Verbesserung der Daten und eine Analyse der Zwischenergebnisse ermöglichen. So wurden etwa zur neue Bibliotheken von nicht-polymorphen DNA-Proben sequenziert um die Heterogenität im Datensatz zu verringern. Um die Kontinuität der Assemblies zu verbessern und Probleme mit der Heterozygosität der Daten zu lösen habe ich eine Reihe verschiedener Assemblierungsprogramme getestet. Dabei zeigte sich, dass das Programm ALLPATHS-LG am besten geeignet ist für die Assemblierung von D. muscipula Daten. Durch den Einsatz von digitaler Normalisierung konnte ich den Bedarf an Computerressourcen für einzelne Assemblierungen deutlich reduzieren und gleichzeitig die Kontinuität der Assemblies deutlich erhöhen. Zur besseren Auflösung repetitiver Strukturen im Genom, habe ich auf eine neu entwickelte Sequenziertechnologie von PacBio zurückgegriffen, die deutlich länger Sequenzen erzeugt. Um die neuen Daten trotz ihrer hohen Fehlerrate von 15% für Assemblierungen nutzen zu können, entwickelte ich das Korrekturprogramm proovread (Hackl et al., 2014). proovread nutzt kurze Illumina Sequenzen mit hoher Sequenziertiefe um innerhalb eines iterativen Prozess Fehler in PacBio Daten ausfindig zu machen und zu korrigieren. Das Programm erreicht dabei eine bessere Genauigkeit und eine höhere Sensitivität als vergleichbare Software. Darüber hinaus erlaubt sein flexibles Design auch Datensätze in der Größenordung des Fliegenfallengenoms effizient auf großen Rechenclustern zu bearbeiten. Neben dem Assemblierungsprozess an sich, stellt auch die Analyse von Assemblies großer Genome eine Herausforderung dar. Klassische Methoden basieren oft auf der rechenintensiven Berechnung von Alignments zwischen Sequenzierdaten und Assembly. Um vergleichbare Analysen deutlich schneller generieren zu können, habe ich Programme entwickelt die auf der Auswertung von k-mer Häufigkeiten beruhen, und die gewonnenen Ergebnisse in übersichtlichen Graphiken darstellen. Durch Kombination der so gewonnenen Einblicke und der verschiedenen Erkenntnisse bezüglich der Optimierung es Assemblierungsprozesses, war es mir am Ende möglich, ein Assembly von hoher Qualität für das Genom der Venus Fliegenfalle zu rekonstruieren. Dieses habe ich weiter verfeinert, unter anderem durch das Entfernen heterozygoter Sequenzen und durch das Flicken von Lücken mit Hilfe von PacBio Daten. Das so erstelle Assembly besteht aus 86 × 103 Sequenzen und hat eine Gesamtgröße von 1.45Gbp. Der Unterschied zur erwarteten Genomgröße lässt sich dabei gut durch kollabierte repetitive Regionen erklären. Gleichzeitig untermauert ein hoher Anteil an Volllängengenen im Assembly die Interpretation, dass das vorliegende Assembly eine vollständiges und umfassendes Abbild der D. muscipula Genom zeigt, und dass es sich damit als gute Grundlage für weitere Untersuchungen zur Biologie dieser faszinierenden Pflanze eignet. KW - Venusfliegenfalle KW - genome assembly KW - repeats KW - heterozygosity KW - pacbio correction KW - Genom Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-133149 ER - TY - THES A1 - Imes, Dennis T1 - Aufklärung der molekularen Struktur und Funktion des R-Typ Anionenkanals QUAC1 in Schließzellen T1 - Molecular structure and function analyses of the R-type anion channel QUAC1 in guard cells N2 - Zum Gasaustausch mit Ihrer Umgebung besitzen höhere Pflanzen stomatäre Komplexe. Die Turgor-getrieben Atmungsöffnungen in der Epidermis der Blätter werden von zwei Schließzellen umsäumt. Um bei Trockenheit einen exzessiven Verlust von Wasser zu verhindern, synthetisieren/importieren Schließzellen das Stresshormon ABA (Abszisinsäure), das über eine schnelle ABA-Signalkaskade plasmamembrangebundene Ionenkanäle steuert. Dabei wird der Stomaschluss durch die Aktivität von R-(rapid) und S-(slow)Typ Anionenkanälen initiiert. Obwohl die R- und S-Typ Anionenströme in Schließzellen seit Jahrzehnten bekannt waren, konnte erst kürzlich das Gen identifiziert werden, das für den S-Typ Anionenkanal (SLAC1, Slow activating Anion Channel 1) kodiert. Daraufhin wurde schnell der Zusammenhang zwischen dem Stresshormon ABA, der ABA-Signalkette und der Aktivität des SLAC1 Anionenkanals im heterologen Expressionssystem der X. laevis Oozyten als auch in Schließzellprotoplasten aufgeklärt. Es konnte gezeigt werden, dass ABA durch einen zytosolischen Rezeptor/Phosphatasekomplex (RCAR1/ABI1) erkannt wird und die Aktivität von kalziumabhängigen Kinasen (CPK-Familie) sowie kalziumunabhängigen Kinasen der SnRK2-Familie (OST1) steuert. In Anwesenheit von ABA phosphorylieren diese Kinasen SLAC1 und sorgen so für die Aktivierung von Anionenströmen und damit für die Initiierung des Stomaschlusses. Die genetische Herkunft der ABA-induzierten R-Typ Ströme in Schließzellen war zu Beginn der vorliegenden Arbeit noch nicht bekannt. R-Typ Ströme zeichnen sich durch eine strikte Spannungsabhängigkeit und sehr schnellen Aktivierungs- sowie Deaktivierungskinetiken aus. Die Charakterisierung von Verlustmutanten des Schließzell-exprimierten Gens ALMT12 (Aluminium-aktivierter Malattransporter 12) konnte in Zusammenarbeit mit der Arbeitsgruppe Martinoia (Zürich) erste Hinweise auf die Beteiligung dieses Gens an der Stomabewegung demonstrieren. Anschließende Patch-Clamp Untersuchungen an Schließzellprotoplasten aus Wildtyppflanzen und ALMT12-Verlustmutanten zeigten, dass ALMT12 für die Malat-aktivierte R-Typ Anionenstromkomponente verantwortlich ist. Deshalb wurde der Anionenkanal QUAC1 (Quickly activating Anion Channel 1) benannt - in Anlehnung an die Benennung des Anionenkanals SLAC1. Mit der Identifizierung von QUAC1 in planta war es nun meine Aufgabe, die elektrischen Eigenschaften von ALMT12/QUAC1 und dessen Aktivitätskontrolle durch die ABA-Signalkaskade im heterologen Expressionssystem der Xenopus Oozyten zu untersuchen. Protein-Protein Interaktionsstudien mit der Hilfe der Bimolekularen Fluoreszenz-Technik, sowie die Beobachtung von markant erhöhten QUAC1 Anionenströmen in Anwesenheit der SnRK2 Kinase OST1 und den Calcium-abhängigen Kinasen CPK2 und CPK20, ließen den Schluss zu, dass QUAC1, ebenso wie SLAC1, unter der Kontrolle des schnellen ABA-Signalwegs steht. Eine zusätzliche Expression des negativen Regulators ABI1 unterdrückte die aktivierenden Eigenschaften der QUAC1-aktivierenden Kinasen, was die Hypothese der Koregulation von S- und R-Typ Anionenkanälen durch die gleiche ABA-Signalkaskade weiter unterstützt. Zur weiteren Aufklärung der elektrischen Eigenschaften von QUAC1 wurden tiefgreifende elektrophysiologische Untersuchungen mit der Zwei-Elektroden-Spannungsklemmen Technik durchgeführt. Durch die Wahl von geschickten Spannungsprotokollen konnte sowohl die schnelle Aktivierungskinetik als auch die schnelle Deaktivierungskinetik von QUAC1 bestimmt und quantifiziert werden. Diese Stromantworten waren sehr ähnlich zu den R-Typ Strömen, die man von Patch-Clamp Untersuchungen an Schließzellprotoplasten kannte, was ein weiteres Indiz dafür war, dass es sich bei QUAC1 tatsächlich um eine Komponente des R-Typ Kanals aus Schließzellen handelt. Weiterführende Untersuchungen bezüglich der Spannungsabhängigkeit und der Selektivität von QUAC1 charakterisierten das Protein als einen Depolarisations-aktivierten Anionenkanal mit einer starken Präferenz für Dicarbonsäuren wie Malat und Fumarat. Zudem konnte auch eine Leitfähigkeit für Sulfat und Chlorid nachgewiesen werden. Interessanterweise erwies sich Malat nicht nur als ein permeierendes Ion, sondern auch als ein regulierendes Ion, welches das spannungsabhängige Schalten von QUAC1 maßgeblich beeinflusst. Extrazelluläres Malat verschob die Offenwahrscheinlichkeit von QUAC1 sehr stark zu negativeren Membranspannungen, so dass der Anionenkanal bereits bei typischen Ruhespannungen von Schließzellen (ca. -150 mV) aktiviert werden konnte. Eine Beladung von QUAC1-exprimierender Oozyten mit Malat bewirkte zum einen höhere Anioneneffluxströme, aber auch eine Verschiebung der spannungsabhängigen Offenwahrscheinlichkeit zu negativeren Membranpotentialen. Struktur-Funktionsanalysen sollten die umstrittene Topologie von ALMT-ähnlichen Proteinen beleuchten und die molekulare Herkunft der Phosphorylierungsaktivierung aufzeigen, sowie die Malatabhängigkeit und die starke Spannungsabhängigkeit von QUAC1 aufklären. Es zeigte sich jedoch schnell, dass Punktmutationen und Deletionen im C-Terminus von QUAC1 sehr häufig zu nicht-funktionellen Mutanten führten. Diese Tatsache weist darauf hin, dass es sich um einen hoch-strukturierten und funktionell sehr wichtigen Bereich des Anionenkanals handelt. Auch die Topologie des Anionenkanalproteins wird in der Literatur kontrovers diskutiert. Sowohl die Lage des N- und C-Terminus (extrazellulär oder intrazellulär), als auch die Anzahl der membrandurchspannenden Domänen war nicht abschließend geklärt. Deshalb wurde in einem Fluoreszenz-basiertem Ansatz die Lage der Termini bestimmt. Im Rahmen meiner Arbeit konnte somit eindeutig gezeigt werden, dass sich beide Termini im Zytosol der Zelle befinden. Auf Grundlage von Modellen aus der Literatur und meiner Topologiebestimmungen konnte schließlich ein erweitertes Modell zur Struktur von QUAC1 entwickelt werden. Dieses Modell kann in Zukunft als Ausgangspunkt für weiterführende Struktur-Funktionsanalysen dienen. Diese Arbeit hat somit gezeigt, dass das Gen QUAC1 tatsächlich eine Komponente der R-Typ Ströme in Schließzellen kodiert. Ebenso wie SLAC1 steht der Malat-induzierte Anionenkanal QUAC1 unter der Kontrolle der schnellen ABA-Signalkaskade. In Zukunft bleibt zu klären, welche weiteren Gene für die R-Typ Kanalproteine in Schließzellen kodieren und welche strukturelle Grundlage für die besonderen Eigenschaften von QUAC1 hinsichtlich seiner schnellen Kinetiken, seiner Selektivität und Aktivierbarkeit durch Malat. N2 - Higher plants are able to exchange gases with their environment. This gas exchange is accomplished by the stomatal complex, which consist of two tugor-driven guard cells (GC) that surround a pore in the epidermis. Under drought conditions, guard cells produce and import the plant stress hormone abscisic acid (ABA). ABA is able to activate plasma membrane localized ion channels via the fast ABA-signal cascade, which leads to a closure of the stoma and thus minimizes the loss of water. The stomatal closure is initialized by the R-(rapid) and S-(slow) type anion channels. Although R- and S-type anion channels in guard cells have been known for over a decade, the gene which decodes the S-type anion channel SLAC1 (Slow activating Anion Channel 1) has only recently been identified. Consequently, the relationship between the plant hormone ABA, the ABA-signal-transduction-chain, and the activity of SLAC1 could be clarified in rapid succession in the heterologous expression system of X. laevis oocytes as well as in GC-protoplasts. It could be shown that ABA is recognized by a cytosolic receptor/phosphatase complex (RCAR/ABI1). This complex in turn regulates the activity of calcium dependent kinases of the CPK-family as well as the calcium independent kinases of the SnRK2-family (OST1). In the presence of ABA, these kinases activate SLAC1 by phosphorylation, and by this activate anion currents across the plasma membrane, ultimately leading to closure of the stomates. The genetic origin of the ABA induced R-type currents in guard cells was unknown at the beginning of this thesis. R-type currents are characterized by strong voltage-dependent behavior and fast activation- and deactivation-kinetics. In cooperation with the workgroup of Martinoia (Zürich), knock-out plants missing the guard cell gen ALMT12 (Aluminum activated Malate Transporter 12) were characterized. This work delivered the first hints that ALMT12 is involved in the stomatal movement. Subsequent patch-clamp studies on GC-protoplasts from WT and ALMT12 knock-out mutants revealed that ALMT12 is responsible for the malate-activated component of the R-type anion currents. Therefore, the anion-channel was named QUAC1 (Quick activating Anion Channel) in dependence on the naming of SLAC1. With the identification of QUAC1 in planta it was my duty to research the electrical properties of ALMT12/QUAC1 as well as the activation by the ABA-signal-transduction-chain in the heterologous expression system of X. laevis oocytes. Protein-protein interaction studies via bimolecular fluorescence complementation (BIFC) as well as significantly higher QUAC1 anion currents in the presence of the SnRK2 kinase OST1 and the calcium-dependent-kinases CPK2 and CPK20 led to the conclusion that QUAC1 is under the control of the fast ABA signaling pathway, as it was shown before for SLAC1. Furthermore expression of the negative regulator ABI1 inhibited the activating properties of the QUAC1-activating kinases. These findings support further the hypotheses of the simultaneous regulation of S- and R-type anion channels by the ABA-signaling pathway. To further elucidate the electrical properties of QUAC1, electrophysiological investigations were performed with the two-electrode-voltage-clamp technique (TEVC). In this way, the fast activation and deactivation of QUAC1 could be identified and quantified by carefully chosen voltage-clamp protocols. These current responses of QUAC1 closely resembled the R-type currents known from former patch-clamp studies from GC-protoplasts. This further supported the conclusion that QUAC1 is indeed a component of the R-type channels of guard cells. Additional investigations of the voltage-dependence and selectivity of QUAC1 characterized the protein as a depolarization-activated anion channel with strong preference for bicarbonate acids like malate and fumarate. Furthermore, a conductance for sulfate and chloride could also be shown. Interestingly, malate was not only able to permeate the channel, it was also able to alter the voltage-dependence of QUAC1. External malate strongly shifted the open probability of QUAC1 to negative membrane voltages. By this shift the anion channel could be activated at typical guard cell membrane potentials (approx. 150 mV). Loading of QUAC1 expressing oocytes with malate produced enhanced anion efflux currents and shift the voltage-dependent open probability to negative membrane potentials. Structure function analysis were performed to clarify the controversial topology of ALMT like proteins and the molecular origin of the phosphorylation activation. Furthermore, this should elucidate the origin of the malate dependence and the strong voltage dependence of QUAC1. It soon became evident that point mutations and deletions in the C-terminus of QUAC1 very often lead to nonfunctional mutants. This points toward a highly structured and functionally important region of the anion channel. In addition, the topology of the anion-channel-protein is controversially debated in literature. Neither the position of the C- and N-terminus (intra- or extracellular) nor the number of transmembrane domains has been conclusively established. Due to this, the position of the C- and N-termini were localized by a fluorescence based experiment. As part of this work, it could be shown explicitly that both termini reside in the cytosol of the cell. Based on models from the literature and my own topology studies, an enhanced structure model for QUAC1 could be generated. This model will serve as a starting point for future structure function analysis. This work has thus shown that the gene QUAC1 indeed encodes a component of the R-type currents in guard cells. Like SLAC1, the malate-induced anion channel QUAC1 is under the control of the fast ABA-signal-cascade. Future works must establish which further genes encode R-type channel proteins and which structural attributes are responsible for the special traits of QUAC1: its fast kinetics, its selectivity and its activation by malate. KW - Ackerschmalwand KW - Schließzelle KW - Anionentranslokator KW - Abscisinsäure KW - Struktur KW - Funktion KW - R-Typ KW - Anionenkanal KW - QUAC1 KW - TEVC Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-136860 ER -