TY - THES A1 - Keller, Alexander T1 - Secondary (and tertiary) structure of the ITS2 and its application for phylogenetic tree reconstructions and species identification T1 - Sekundär- und Tertiärstruktur der ITS2 und Anwendung für phylogenetische Baumberechnungen und Arteerkennung N2 - Biodiversity may be investigated and explored by the means of genetic sequence information and molecular phylogenetics. Yet, with ribosomal genes, information for phylogenetic studies may not only be retained from the primary sequence, but also from the secondary structure. Software that is able to cope with two dimensional data and designed to answer taxonomic questions has been recently developed and published as a new scientific pipeline. This thesis is concerned with expanding this pipeline by a tool that facialiates the annotation of a ribosomal region, namely the ITS2. We were also able to show that this states a crucial step for secondary structure phylogenetics and for data allocation of the ITS2-database. This resulting freely available tool determines high quality annotations. In a further study, the complete phylogenetic pipeline has been evaluated on a theoretical basis in a comprehensive simulation study. We were able to show that both, the accuracy and the robustness of phylogenetic trees are largely improved by the approach. The second major part of this thesis concentrates on case studies that applied this pipeline to resolve questions in taxonomy and ecology. We were able to determine several independent phylogenies within the green algae that further corroborate the idea that secondary structures improve the obtainable phylogenetic signal, but now from a biological perspective. This approach was applicable in studies on the species and genus level, but due to the conservation of the secondary structure also for investigations on the deeper level of taxonomy. An additional case study with blue butterflies indicates that this approach is not restricted to plants, but may also be used for metazoan phylogenies. The importance of high quality phylogenetic trees is indicated by two ecological studies that have been conducted. By integrating secondary structure phylogenetics, we were able to answer questions about the evolution of ant-plant interactions and of communities of bacteria residing on different plant tissues. Finally, we speculate how phylogenetic methods with RNA may be further enhanced by integration of the third dimension. This has been a speculative idea that was supplemented with a small phylogenetic example, however it shows that the great potential of structural phylogenetics has not been fully exploited yet. Altogether, this thesis comprises aspects of several different biological disciplines, which are evolutionary biology and biodiversity research, community and invasion ecology as well as molecular and structural biology. Further, it is complemented by statistical approaches and development of informatical software. All these different research areas are combined by the means of bioinformatics as the central connective link into one comprehensive thesis. N2 - Biologische Diversität kann mit Hilfe molekularer Sequenzinformation und phylogenetischen Methoden erforscht und erfasst werden. Bei ribosomalen Genen kann man jedoch wertvolle Information nicht nur aus der Primärsequenz beziehen, sondern auch aus der Sekundärstruktur. In den letzen Jahren wurde Software entwickelt, die solche Daten für taxonomische Fragestellung verwerten kann. Diese Arbeit beschäftigt sich mit einer Erweiterung dieser Methodik durch eine Software-Anwendung, die die Annotation des ribosomalen Genes ITS2 deutlich vereinfacht. Mit dieser Studie konnten wir zeigen, dass dies einen entscheidenden Schritt der Sequenz-Struktur-Phylogenie und der Datenerfassung der ITS2-Datenbank darstellt. Die daraus resultierende und frei verfügbare Anwendung ermöglicht Annotationen von hoher Güte. In einer weiteren Studie wurde mittels Simulationen der gesamte Arbeitsfluß der Sequenz-Struktur Phylogenie auf theoretischer Ebene evaluiert. Dabei zeigte sich, dass sich sowohl die Genauigkeit, als auch die Robustheit von phylogenetischen Stammbäumen durch diesen Ansatz deutlich verbessern. Der zweite große Teil der Arbeit befasst sich mit Fallbeispielen, in denen dieser Arbeitsfluß zur Aufklärung von taxomonischen and ökologischen Fragestellungen Anwendung fand. In diesem Rahmen konnten wir mehrere und voneinander unabhängige Phylogenien ermitteln, welche die theoretischen Ergebnisse einer Verbesserung phylogenetischer Bäume auch von biologischer Seite aus bekräftigen. Der Ansatz war anwendbar in sehr feinskaligen Studien auf Art bzw. Gattungsniveau, aber durch die starke Konservierung der Sekundärstruktur auch an sehr weit von einander entfernten taxonomischen Gruppen. Eine weitere Studie, die sich mit der Phylogenie von Bläulingen befasst, zeigt deutlich, dass dieser Ansatz nicht nur für Fragestellungen bei Pflanzen, sondern auch im Tierreich angewandt werden kann. Die Bedeutung von qualitativ hochwertigen Stammbäumen auch für andere Fachbereiche wird an zwei unserer ökologischen Studien deutlich: Mit Hinzunahme von Sekundärstruktur war es uns möglich Fragestellungen über die Evolution von Ameisen-Pflanzen Interaktionen sowie über ökologische Gemeinschaften von Bakterien auf verschiedenen Pflanzenteilen zu beantworten. Zuletzt gehen wir spekulativ auf die Frage ein, wie Strukturphylogenie um die dritte Dimension erweitert werden kann. Dies bleibt zwar spekulativ und wurde nur um ein kleines Fallbeispiel ergänzt, jedoch zeigt sich deutlich, dass das Potential von Strukturphylogenie noch nicht erschöpft ist. Insgesamt befasst sich diese Arbeit mit Aspekten aus verschiedenen biologischen Disziplinen: Evolutionsbiologie und Biodiversitätsforschung, sowie Gemeinschafts- und Invasionsökologie, aber auch Molekular- und Strukturbiologie. Dies wurde ergänzt durch statistische Ansätze und Entwicklung von informatischer Software. Diese verschiedenen Forschungsrichtungen wurden mit Hilfe der Bioinformatik als zentrales Bindeglied vereint. KW - Phylogenie KW - Evolution KW - Sekundärstruktur KW - DNS-Sequenz KW - Algen KW - Ribosomale RNS KW - rRNA KW - secondary structure KW - phylogeny evolution KW - sequence Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-56151 ER - TY - THES A1 - Vershenya, Stanislav T1 - Quantitative and qualitative analyses of in-paralogs N2 - In our analysis I was interested in the gene duplications, with focus on in-paralogs. In-paralogs are gene duplicates which arose after species split. Here I analysed the in-paralogs quantitatively, as well as qualitatively. For quantitative analysis genomes of 21 species were taken. Most of them have vastly different lifestyles with maximum evolutionary distance between them 1100 million years. Species included mammals, fish, insects and worm, plus some other chordates. All the species were pairwised analysed by the Inparanoid software, and in-paralogs matrix were built representing number of in-paralogs in all vs. all manner. Based on the in-paralogs matrix I tried to reconstruct the evolutionary tree using in-paralog numbers as evolutionary distance. If all 21 species were used the resulting tree was very far from real one: a lot of species were misplaced. However if the number was reduced to 12, all of the species were placed correctly with only difference being wrong insect and fish clusters switched. Then to in-paralogs matrix the neighbour-net algorithm was applied. The resulting "net" tree showed the species with fast or slow duplications rates compared to the others. We could identify species with very high or very low duplications frequencies and it correlates with known occurrences of the whole genome duplications. As the next step I built the graphs for every single species showing the correlation between their in-paralogs number and evolutionary distance. As we have 21 species, graph for every species is built using 20 points. Coordinates of the points are set using the evolutionary distance to that particular species and in-paralogs number. In mammals with increasing the distance from speciation the in-paralogs number also increased, however not in linear fashion. In fish and insects the graph close to zero is just the same in mammals' case. However, after reaching the evolutionary distances more than 800 million years the number of inparalogs is beginning to decrease. We also made a simulation of gene duplications for all 21 species and all the splits according to the fossil and molecular clock data from literature. In our simulation duplication frequency was minimal closer to the past and maximum in the near-present time. Resulting curves had the same shape the experimental data ones. In case of fish and insect for simulation the duplication rate coefficient even had to be set negative in order to repeat experimental curve shape. To the duplication rate coefficient in our simulation contribute 2 criteria: gene duplications and gene losses. As gene duplication is stochastical process it should always be a constant. So the changing in the coefficient should be solely explained by the increasing gene loss of old genes. The processes are explained by the evolution model with high gene duplication and loss ratio. The drop in number of in-paralogs is probably due to the BLAST algorithm. It is observed in comparing highly divergent species and BLAST cannot find the orthologs so precisely anymore. In the second part of my work I concentrated more on the specific function of inparalogs. Because such analysis is time-consuming it could be done on the limited number species. Here I used three insects: Drosophila melanogaster (fruit y), Anopheles gambiae (mosquito) and Apis mellifera (honeybee). After Inparnoid analyses and I listed the cluster of orthologs. Functional analyses of all listed genes were done using GO annotations and also KEGG PATHWAY database. We found, that the gene duplication pattern is unique for each species and that this uniqueness is rejected through the differences in functional classes of duplicated genes. The preferences for some classes reject the evolutionary trends of the last 350 million years and allow assumptions on the role of those genes duplications in the lifestyle of species. Furthermore, the observed gene duplications allowed me to find connections between genomic changes and their phenotypic manifestations. For example I found duplications within carbohydrate metabolism rejecting feed pattern adaptation, within photo- and olfactory-receptors indicating sensing adaptation and within troponin indicating adaptations in the development. Despite these species specific differences, found high correlations between the independently duplicated genes between the species. This might hint for a "pool" of genes preferentially duplicated. Taken together, the observed duplication patterns reject the adaptational process and provide us another link to the field of genomic zoology. N2 - In unserer Analyse untersuchten wir Genduplikationen mit besonderem Fokus auf "Inparalogen". In-paraloge sind Genduplikationen die nach Speziazion enstehen. Diese betrachteten wir hier in einer quantitativen als auch qualitativen Messreihe. Die quantitative Analyse umfasste Genome aus insgesamt 21 Spezies. Der Großteil diese hat verschiedene Lebensgewonheiten mit eine maximalen Evolutionsdistanz von 1100 Millionen Jahren. Die Arten bestanden aus Säugetiere, Fischen, Insekten und Würmern, sowie weiteren Chordaten. Alle Arten wurden mittels der Inparanoid Software paarweise "all against all" analysiert und in in-paralog Matrizen gespeichert. Basierend auf der in-paralog Matrix versuchten wir den evolutionären Baum über die Anzahl der In-paraloge als Maß für die evolutionäre Distanz zu rekonstruiren. Bei der Betrachtung alle 21 Arten würde der Baum jedoch sehr unpräzise: viel Arten wurden falsch plaziert. Durch eine Reduktion der Anzahl auf nur 12 Spezies clusterten jedoch alle Arten richtig, nur Insekten und Fische waren vertauscht. Anschließend wurde auf die In-paralog Matrix der Neighbor-net Algorithmus angewandt. Der daraus resultierende "Netz"-Baum repräsentiert die Spezies mit schneller oder langsamer Duplikationsrate im Vergleich zu den Anderen. Wir konnten Spezies mit sehr niedriger oder sehr hoher Rate identifizieren. Dabei korrelieren die Genome mit der höheren Rate zu der Anzahl der auftauchenden Whole Genome Duplikationen. Im nächsten Schritt erstellten wir Graphen für jede einzelne Spezies die das Verhältnis zwischen der Anzahl ihrer In-paraloger zur evolutionäre Distanz anzeigen. Jeder der 21 Graphen enthält insgesamt 20 Punkte. Die Punktkoordianten repräsentiern die evolutionere Distanz auf der X-Achse zu der Anzahl In-paraloger auf der Y-Achse. Bei Säugertieren wächst mit steigender Distanz auch die Anzahl In-paraloger. Das Verhältnis ist jedoch nicht linear. Bei Fischen und Insekten ist der Graph in der Nähe des Nullpunkts gleich dem von Säugetieren. Beim Erreichen einer Distanz von mehr als 800 Millionen Jahren sinkt jedoch die Anzahl der In-paralogen. Wir haben nun zusätzlich eine Simulation der Genduplikationen für alle 21 Spezies und alle dazu gehörigen Splits durchgeführt. Die Splits wurden aus publizierten Fossilien und "Molecular Clock" Daten entnommen. In unsere Simulation stieg die Duplikationsrate mit Annäherung an die heutige Zeit. In Vergleich zu den Experimentellen Daten haben die simulierten Graphen das gleiche Aussehen. Bei Fischen und Insekten musste der Koeffizient der Duplikationsrate negiert werden um die experimentelle Kurve zu erhalten. Der Koeffizient der Duplikationsrate stützt sich dabei auf folgende 2 Kriterien: Gen-Duplikation und Gen-Verlust. Da Genduplikationen einem stochastischen Prozess folgen sollten sie immer konstant sein. Daher sind die erhöhten Genverluste alter Gene verantwortlich für die Veränderunrg dieses Koeffizienten. Die Erklärung für dieses Verhalten basiert auf dem Evolutionsmodel - mit hohem Gen-Verlust und hoher Gen Duplikation. Der Verlust der In-Paralogen enstehet wahrscheinlich durch den BLAST Algorithmus. Man beobachtet dies besonders bei sehr divergenten Arten bei dennen BLAST die Orthologen nicht mehr so präzise findet. Der zweite Teil meiner Arbeit bezieht sich auf die spezifische Funktion von In-paralogen. Da diese Analyse sehr zeitaufwendig ist konnte sie nur an einer begrenzten Anzahl von Spezies durchgeführt werden. Hier habe ich die folgenden drei Insekten verwendet: Drosophila melanogaster (Fruchtfliege), Anopheles gambiae (Moskito) und Apis mellifera (Honigbiene). Alle durch die Inparanoid-Software entstandenen Cluster wurden mit der GO Annotation und der KEGG Pathway Datenbank analyiert. Wir haben herausgefunden, dass das Gen-Duplikationsmuster für jede Spezies einzigartig ist, und dass diese Einzigartigkeit durch Funktionale Unterschiede in duplizierten Genen entsteht. Die Bevorzugung einiger Gene repräsentiert die Evolutionsgeschichte der letzten 350 Millionen Jahre und erlaubt Annahmen über die Auswirkung der Gen Duplikationen im Leben der Spezies zu treffen. Weiterhin fanden wir durch die beobachteten Genduplikationen Zusammenhänge zwischen der Genomveränderung und ihrer phenotypischen Manifestation. Beispielsweise haben wir Duplikationen innerhalb des Karbohydratestoffwechsels für die Anpassung des Essvehaltens, Photo- und Olifaktorisch Rezeptoren - für Seh- und Geruchsvermögen und Troponin - zuständig für die Muskelentwicklung gefunden. Trotz diese speziesspezifischen Unterschiede haben wir starke Korrelation zwischen unabhängig duplizierten Genen erkannt. Dies könnte ein Indikator für einen "Pool" von bevorzugt duplizierten Genen sein. Zusammengefasst stellen die beobachteten Duplikationsmuster den Evolvierungsprozess dar, und liefern eine weitere Verbindung zur genomischen Zoologie. KW - Duplikation KW - Evolution KW - Genetik KW - In-paralogs KW - Gene duplication KW - Inparanoid Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-51358 ER -