@phdthesis{Koetschan2012, author = {Koetschan, Christian}, title = {The Eukaryotic ITS2 Database - A workbench for modelling RNA sequence-structure evolution}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-73128}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2012}, abstract = {In den vergangenen Jahren etablierte sich der Marker „internal transcribed spacer 2" (ITS2) zu einem h{\"a}ufig genutzten Werkzeug in der molekularen Phylogenetik der Eukaryoten. Seine schnell evolvierende Sequenz eignet sich bestens f{\"u}r den Einsatz in niedrigeren phylogenetischen Ebenen. Die ITS2 faltet jedoch auch in eine sehr konservierte Sekund{\"a}rstruktur. Diese erm{\"o}glicht die Unterscheidung weit entfernter Arten. Eine Kombination aus beiden in einer Sequenzstrukturanalyse verbessert die Aufl{\"o}sung des Markers und erm{\"o}glicht die Rekonstruktion von robusteren B{\"a}umen auf h{\"o}herer taxonomischer Breite. Jedoch war die Durchf{\"u}hrung solch einer Analyse, die die Nutzung unterschiedlichster Programme und Datenbanken vorraussetzte, f{\"u}r den klassischen Biologen nicht einfach durchf{\"u}hrbar. Um diese H{\"u}rde zu umgehen, habe ich den „ITS2 Workbench" entwickelt, eine im Internet nutzbare Arbeitsplattform zur automatisierten sequenzstrukturbasierten phylogenetischen Analyse basierend auf der ITS2 (http://its2.bioapps.biozentrum.uni-wuerzburg.de). Die Entwicklung begann mit der L{\"a}ngenoptimierung unterschiedlicher „Hidden Markov Model" (HMM)-Topologien, die erfolgreich auf ein Modell zur Sequenzstrukturvorhersage der ITS2 angewandt wurden. Hierbei wird durch die Analyse von Sequenzbestandteilen in Kombination mit der L{\"a}ngenverteilung verschiedener Helixregionen die Struktur vorhergesagt. Anschließend konnte ich HMMs auch bei der Sequenzstrukturgenerierung einsetzen um die ITS2 innerhalb einer gegebenen Sequenz zu lokalisieren. Dieses neu implementierte Verfahren verdoppelte die Anzahl vorhergesagter Strukturen und verk{\"u}rzte die Laufzeit auf wenige Tage. Zusammen mit weiteren Optimierungen des Homologiemodellierungsprozesses kann ich nun ersch{\"o}pfend Sekund{\"a}rstrukturen in mehreren Interationen vorhersagen. Diese Optimierungen liefern derzeit 380.000 annotierte Sequenzen einschließlich 288.000 Strukturvorhersagen. Um diese Strukturen f{\"u}r die Berechnung von Alignments und phylogenetischen B{\"a}umen zu verwenden hab ich das R-Paket „treeforge" entwickelt. Es erm{\"o}glicht die Generierung von Sequenzstrukturalignments auf bis zu vier unterschiedlich kodierten Alphabeten. Damit k{\"o}nnen erstmals auch strukturelle Basenpaarungen in die Alignmentberechnung mit einbezogen werden, die eine Sch{\"a}tzung neuer Scorematrizen vorraussetzten. Das R-Paket erm{\"o}glicht zus{\"a}tzlich die Rekonstruktion von „Maximum Parsimony", „Maximum Likelihood" und „Neighbour Joining" B{\"a}umen auf allen vier Alphabeten mittels weniger Zeilen Programmcode. Das Paket wurde eingesetzt, um die noch umstrittene Phylogenie der „chlorophyceae" zu rekonstruieren und k{\"o}nnte in zuk{\"u}nftigen Versionen des ITS2 workbench verwendet werden. Die ITS2 Plattform basiert auf einer modernen und sehr umfangreichen Web 2.0 Oberfl{\"a}che und beinhaltet neuste AJAX und Web-Service Technologien. Sie umfasst die HMM basierte Sequenzannotation, Strukturvorhersage durch Energieminimierung bzw. Homologiemodellierung, Alignmentberechnung und Baumrekonstruktion basierend auf einem flexiblen Datenpool, der {\"A}nderungen am Datensatz automatisch aktualisiert. Zus{\"a}tzlich wird eine Detektion von Sequenzmotiven erm{\"o}glicht, die zur Kontrolle von Annotation und Strukturvorhersage dienen kann. Eine BLAST basierte Suche auf Sequenz- und Strukturebene bietet zus{\"a}tzlich eine Vereinfachung des Taxonsamplings. Alle Funktionen sowie die Nutzung der ITS2 Webseite sind in einer kurzen Videoanleitung dargestellt. Die Plattform l{\"a}sst jedoch nur eine bestimmte Gr{\"o}ße von Datens{\"a}tzen zu. Dies liegt vor allem an der erheblichen Rechenleistung, die bei diesen Berechnungen ben{\"o}tigt wird. Um die Funktion dieses Verfahrens auch auf großen Datenmengen zu demonstrieren, wurde eine voll automatisierte Rekonstruktion des Gr{\"u}nalgenbaumes (Chlorophyta) durchgef{\"u}hrt. Diese erfolgreiche, auf dem ITS2 Marker basierende Studie spricht f{\"u}r die Sequenz-Strukturanalyse auf weiteren Daten in der Phylogenetik. Hier bietet der ITS2 Workbench den idealen Ausgangspunkt.}, subject = {Ribosomale RNA}, language = {en} }