TY - THES A1 - Pischimarov, Jordan Ivanov T1 - Bioinformatische Methoden zur Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen T1 - Bioinformatics approaches for the detection and classification of somatic mutations in hematological malignancies N2 - Die Sequenzierungstechnologien entwickeln sich stetig weiter, dies ermöglicht eine zuvor nicht erreichte Ausbeute an experimentellen Daten und auch an Neuentwicklungen von zuvor nicht realisierbaren Experimenten. Zugleich werden spezifische Datenbanken, Algorithmen und Softwareprogramme entwickelt, um die neu entstandenen Daten zu analysieren. Während der Untersuchung bioinformatischer Methoden für die Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen, zeigte sich eine hohe Vielfalt an alternativen Softwaretools die für die jeweiligen Analyseschritte genutzt werden können. Derzeit existiert noch kein Standard zur effizienten Analyse von Mutationen aus Next-Generation-Sequencing (NGS)-Daten. Die unterschiedlichen Methoden und Pipelines generieren Kandidaten, die zum größten Anteil in allen Ansätzen identifiziert werden können, jedoch werden Software spezifische Kandidaten nicht einheitlich detektiert. Um eine einheitliche und effiziente Analyse von NGS-Daten durchzuführen war im Rahmen dieser Arbeit die Entwicklung einer benutzerfreundlichen und einheitlichen Pipeline vorgesehen. Hierfür wurden zunächst die essentiellen Analysen wie die Identifizierung der Basen, die Alignierung und die Identifizierung der Mutationen untersucht. Des Weiteren wurden unter Berücksichtigung von Effizienz und Performance diverse verfügbare Softwaretools getestet, ausgewertet und sowohl mögliche Verbesserungen als auch Erleichterungen der bisherigen Analysen vorgestellt und diskutiert. Durch Mitwirken in Konsortien wie der klinischen Forschergruppe 216 (KFO 216) und International Cancer Genome Consortium (ICGC) oder auch bei Haus-internen Projekten wurden Datensätze zu den Entitäten Multiples Myelom (MM), Burkitt Lymphom (BL) und Follikuläres Lymphom (FL) erstellt und analysiert. Die Selektion geeigneter Softwaretools und die Generierung der Pipeline basieren auf komparativen Analysen dieser Daten, sowie auf geteilte Ergebnisse und Erfahrungen in der Literatur und auch in Foren. Durch die gezielte Entwicklung von Skripten konnten biologische und klinische Fragestellungen bearbeitet werden. Hierzu zählten eine einheitliche Annotation der Gennamen, sowie die Erstellung von Genmutations-Heatmaps mit nicht Variant-Calling-File (VCF)-Syntax konformen Dateien. Des Weiteren konnten nicht abgedeckte Regionen des Genoms in den NGS-Daten identifiziert und analysiert werden. Neue Projekte zur detaillierten Untersuchung der Verteilung von wiederkehrender Mutationen und Funktionsassays zu einzelnen Mutationskandidaten konnten basierend auf den Ergebnissen initiiert werden. Durch eigens erstellte Python-Skripte konnte somit die Funktionalität der Pipeline erweitert werden und zu wichtigen Erkenntnissen bei der biologischen Interpretation der Sequenzierungsdaten führen, wie beispielsweise zu der Detektion von drei neuen molekularen Subgruppen im MM. Die Erweiterungen, der in dieser Arbeit entwickelten Pipeline verbesserte somit die Effizienz der Analyse und die Vergleichbarkeit unserer Daten. Des Weiteren konnte durch die Erstellung eines eigenen Skripts die Analyse von unbeachteten Regionen in den NGS-Daten erfolgen. N2 - The sequencing technologies, while still being under further development, render it possible to develop novel experiments and allow the generation of larger amounts of utilizable data. At the same time novel software tools, databases and algorithms are developed to analyze these larger amounts of data. The analysis of somatic mutations in hematological malignancies showed that a high variety of alternative software tools can be used for different analysis steps. Furthermore there is currently no standardized procedure for the efficient identification and analysis of mutations in NGS data. The different pipeline and methods are, for the most part, able to identify the same mutation candidates, however there are software specific candidates which are not called by all pipelines. The scope of this dissertation was therefore to develop a user-friendly pipeline which is able to call candidate mutations uniformly and efficiently. For this purpose necessary analysis steps including base calling, alignment generation and variant calling were investigated. Furthermore available software tools were tested and evaluated regarding their efficiency and performance. Possible improvements of these software tools and previously performed analysis are explained and discussed in this work. NGS data sets of the different cancer entities multiple myeloma (MM), Burkitt lymphoma (BL) and follicular lymphoma (FL) were generated and analyzed within the framework of cooperate projects like the International Cancer Genome Consortium (ICGC) and the Clinical Research Group 216 (KFO) as well as for internal projects. The development of the pipeline and selection of suitable software tools is based on the comparative analysis of the generated data sets, as well as previously described results and experiences in literature and forums. The selective development of certain python scripts enabled the evaluation of novel biological and clinical questions by standardizing gene names in the annotation step, generating heat- maps of non-standardized VCF-files as well as the identification and analysis of uncovered regions in NGS data sets. This work and the obtained results thereby provide the groundwork for further projects e.g. the analysis of the distribution of recurrent mutations or the functional analysis of specific mutation candidates. This extensions of the developed pipeline with python scripts helped to improve the efficiency and comparability of the NGS data. The interpretation of the NGS data with the extended script for example led to the discovery of three distinct molecular subgroups in MM. Furthermore the generation of the novel python scripts helped to analyze uncovered regions in the NGS data sets.  KW - Pipeline-Rechner KW - somatische Mutationen KW - Sequenzierung KW - Bioinformatik KW - Identifizierungspipeline KW - Next Generation Sequencing KW - Variantcalling KW - Bioinformatic KW - somatic mutations KW - DNS-Sequenz KW - Somatische Mutation Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-147773 ER - TY - THES A1 - Sickel, Wiebke T1 - High-throughput biodiversity assessment - Powers and limitations of meta-barcoding T1 - Hochdurchsatzerfassung von Biodiversität - Stärken und Grenzen von Meta-barcoding N2 - Traditional species identification based on morphological characters is laborious and requires expert knowledge. It is further complicated in the case of species assemblages or degraded and processed material. DNA-barcoding, species identification based on genetic data, has become a suitable alternative, yet species assemblages are still difficult to study. In the past decade meta-barcoding has widely been adopted for the study of species communities, due to technological advances in modern sequencing platforms and because manual separation of individual specimen is not required. Here, meta-barcoding is put into context and applied to the study of bee-collected pollen as well as bacterial communities. These studies provide the basis for a critical evaluation of the powers and limitations of meta-barcoding. Advantages identified include species identification without the need for expert knowledge as well as the high throughput of samples and sequences. In microbiology, meta-barcoding can facilitate directed cultivation of taxa of interest identified with meta-barcoding data. Disadvantages include insufficient species resolution due to short read lengths and incomplete reference databases, as well as limitations in abundance estimation of taxa and functional profiling. Despite these, meta-barcoding is a powerful method for the analysis of species communities and holds high potential especially for automated biomonitoring. N2 - Traditionelle Methoden der Identifizierung von Organismen anhand von morphologischen Merkmalen sind arbeits- und zeitaufwendig und benötigen Expertenkenntnisse der Morphologie. Weitere Probleme liegen in der Analyse von Artgemeinschaften und prozessiertem Material. DNA-barcoding, Artbestimmung anhand von genetischen Merkmalen, hat sich als Alternative herausgebildet, jedoch sind Artgemeinschaften nach wie vor schwierig zu analysieren. Im vergangenen Jahrzehnt wurde meta-barcoding zur Analyse von Artgemeinschaften entwickelt; insbesondere durch die Weiterentwicklung moderner Sequenziergeräte und da eine Auftrennung der Organismen innerhalb einer Gemeinschaft nicht mehr notwendig ist. In der vorliegenden Arbeit wurde zunächst ein Überblick über meta-barcoding erstellt. Die Methode wurde dann für die Analyse von Bienen-gesammeltem Pollen und Bakteriengemeinschaften angewandt. Diese Studien bilden eine gute Basis, um die Vor- und Nachteile von meta-barcoding kritisch zu bewerten. Vorteile beinhalten unter anderem, dass Organismen bestimmt werden können, ohne dass Expertenkenntnisse notwendig sind, sowie der hohe Durchsatz von Proben und Sequenzen. In der Mikrobiologie kann meta-barcoding eine gerichtete Kultivierung von Bakterien erleichtern, die durch meta-barcoding als Zielorganismen indentifiziert wurden. Nachteile finden sich in der manchmal noch unzureichenden Unterscheidung nah ver- wandter Arten aufgrund von kurzen Sequenzlängen und lückenhaften Referenzdatenbanken, sowie Einschränkungen in der Abschätzung von Abundanzen und Funktionen der Organismen innerhalb der Artgemeinschaft. Trotz dieser Problematiken ist meta-barcoding eine leistungsstarke Methode für die Analyse von Artgemeinschaften und ist besonders vielversprechend für automatisiertes Bio-Monitoring. KW - Bacterial community analysis KW - pollen analysis KW - Biodiversity assessment KW - Meta-barcoding KW - Biodiversität KW - DNS-Sequenz Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-144573 ER -