TY  - THES
A1  - Pischimarov, Jordan Ivanov
T1  - Bioinformatische Methoden zur Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen
T1  - Bioinformatics approaches for the detection and classification of somatic mutations in hematological malignancies
N2  - Die Sequenzierungstechnologien entwickeln sich stetig weiter, dies ermöglicht eine zuvor nicht erreichte Ausbeute an experimentellen Daten und auch an Neuentwicklungen von zuvor nicht realisierbaren Experimenten. Zugleich werden spezifische Datenbanken, Algorithmen und Softwareprogramme entwickelt, um die neu entstandenen Daten zu analysieren. Während der Untersuchung bioinformatischer Methoden für die Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen, zeigte sich eine hohe Vielfalt an alternativen Softwaretools die für die jeweiligen Analyseschritte genutzt werden können. Derzeit existiert noch kein Standard zur effizienten Analyse von Mutationen aus Next-Generation-Sequencing (NGS)-Daten. Die unterschiedlichen Methoden und Pipelines generieren Kandidaten, die zum größten Anteil in allen Ansätzen identifiziert werden können, jedoch werden Software spezifische Kandidaten nicht einheitlich detektiert.
Um eine einheitliche und effiziente Analyse von NGS-Daten durchzuführen war im Rahmen dieser Arbeit die Entwicklung einer benutzerfreundlichen und einheitlichen Pipeline vorgesehen. Hierfür wurden zunächst die essentiellen Analysen wie die Identifizierung der Basen, die Alignierung und die Identifizierung der Mutationen untersucht. Des Weiteren wurden unter Berücksichtigung von Effizienz und Performance diverse verfügbare Softwaretools getestet, ausgewertet und sowohl mögliche Verbesserungen als auch Erleichterungen der bisherigen Analysen vorgestellt und diskutiert. Durch Mitwirken in Konsortien wie der klinischen Forschergruppe 216 (KFO 216) und International Cancer Genome Consortium (ICGC) oder auch bei Haus-internen Projekten wurden Datensätze zu den Entitäten Multiples Myelom (MM), Burkitt Lymphom (BL) und Follikuläres Lymphom (FL) erstellt und analysiert. Die Selektion geeigneter Softwaretools und die Generierung der Pipeline basieren auf komparativen Analysen dieser Daten, sowie auf geteilte Ergebnisse und Erfahrungen in der Literatur und auch in Foren. Durch die gezielte Entwicklung von Skripten konnten biologische und klinische Fragestellungen bearbeitet werden. Hierzu zählten eine einheitliche Annotation der Gennamen, sowie die Erstellung von Genmutations-Heatmaps mit nicht Variant-Calling-File (VCF)-Syntax konformen Dateien. Des Weiteren konnten nicht abgedeckte Regionen des Genoms in den NGS-Daten identifiziert und analysiert werden. Neue Projekte zur detaillierten Untersuchung der Verteilung von wiederkehrender Mutationen und Funktionsassays zu einzelnen Mutationskandidaten konnten basierend auf den Ergebnissen initiiert werden.
Durch eigens erstellte Python-Skripte konnte somit die Funktionalität der Pipeline erweitert werden und zu wichtigen Erkenntnissen bei der biologischen Interpretation der Sequenzierungsdaten führen, wie beispielsweise zu der Detektion von drei neuen molekularen Subgruppen im MM. Die Erweiterungen, der in dieser Arbeit entwickelten Pipeline verbesserte somit die Effizienz der Analyse und die Vergleichbarkeit unserer Daten. Des Weiteren konnte durch die Erstellung eines eigenen Skripts die Analyse von unbeachteten Regionen in den NGS-Daten erfolgen.
N2  - The sequencing technologies, while still being under further development, render it possible to develop novel experiments and allow the generation of larger amounts of utilizable data. At the same time novel software tools, databases and algorithms are developed to analyze these larger amounts of data. The analysis of somatic mutations in hematological malignancies showed that a high variety of alternative software tools can be used for different analysis steps. Furthermore there is currently no standardized procedure for the efficient identification and analysis of mutations in NGS data. The different pipeline and methods are, for the most part, able to identify the same mutation candidates, however there are software specific candidates which are not called by all pipelines.
The scope of this dissertation was therefore to develop a user-friendly pipeline which is able to call candidate mutations uniformly and efficiently. For this purpose necessary analysis steps including base calling, alignment generation and variant calling were investigated. Furthermore available software tools were tested and evaluated regarding their efficiency and performance. Possible improvements of these software tools and previously performed analysis are explained and discussed in this work. NGS data sets of the different cancer entities multiple myeloma (MM), Burkitt lymphoma (BL) and follicular lymphoma (FL) were generated and analyzed within the framework of cooperate projects like the International Cancer Genome Consortium (ICGC) and the Clinical Research Group 216 (KFO) as well as for internal projects. The development of the pipeline and selection of suitable software tools is based on the comparative analysis of the generated data sets, as well as previously described results and experiences in literature and forums. The selective development of certain python scripts enabled the evaluation of novel biological and clinical questions by standardizing gene names in the annotation step, generating heat- maps of non-standardized VCF-files as well as the identification and analysis of uncovered regions in NGS data sets. This work and the obtained results thereby provide the groundwork for further projects e.g. the analysis of the distribution of recurrent mutations or the functional analysis of specific mutation candidates. This extensions of the developed pipeline with python scripts helped to improve the efficiency and comparability of the NGS data. The interpretation of the NGS data with the extended script for example led to the discovery of three distinct molecular subgroups in MM. Furthermore the generation of the novel python scripts helped to analyze uncovered regions in the NGS data sets. 
KW  - Pipeline-Rechner
KW  - somatische Mutationen
KW  - Sequenzierung
KW  - Bioinformatik
KW  - Identifizierungspipeline
KW  - Next Generation Sequencing
KW  - Variantcalling
KW  - Bioinformatic
KW  - somatic mutations
KW  - DNS-Sequenz
KW  - Somatische Mutation
Y1  - 2016
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-147773
ER  - 
TY  - THES
A1  - Sickel, Wiebke
T1  - High-throughput biodiversity assessment - Powers and limitations of meta-barcoding
T1  - Hochdurchsatzerfassung von Biodiversität - Stärken und Grenzen von Meta-barcoding
N2  - Traditional species identification based on morphological characters is laborious
and requires expert knowledge. It is further complicated in the case of
species assemblages or degraded and processed material. DNA-barcoding,
species identification based on genetic data, has become a suitable alternative,
yet species assemblages are still difficult to study. In the past decade
meta-barcoding has widely been adopted for the study of species communities,
due to technological advances in modern sequencing platforms and
because manual separation of individual specimen is not required. Here,
meta-barcoding is put into context and applied to the study of bee-collected
pollen as well as bacterial communities. These studies provide the basis
for a critical evaluation of the powers and limitations of meta-barcoding. Advantages
identified include species identification without the need for expert
knowledge as well as the high throughput of samples and sequences. In
microbiology, meta-barcoding can facilitate directed cultivation of taxa of interest
identified with meta-barcoding data. Disadvantages include insufficient
species resolution due to short read lengths and incomplete reference
databases, as well as limitations in abundance estimation of taxa and functional
profiling. Despite these, meta-barcoding is a powerful method for the
analysis of species communities and holds high potential especially for automated
biomonitoring.
N2  - Traditionelle Methoden der Identifizierung von Organismen anhand von morphologischen Merkmalen sind arbeits- und zeitaufwendig und benötigen Expertenkenntnisse der 
Morphologie. Weitere Probleme liegen in der Analyse von Artgemeinschaften und prozessiertem Material. DNA-barcoding, Artbestimmung anhand von genetischen Merkmalen, hat sich als Alternative 
herausgebildet, jedoch sind Artgemeinschaften nach wie vor schwierig zu analysieren. Im vergangenen 
Jahrzehnt wurde meta-barcoding zur Analyse von Artgemeinschaften entwickelt; insbesondere durch 
die Weiterentwicklung moderner Sequenziergeräte und da eine Auftrennung der Organismen innerhalb einer Gemeinschaft nicht mehr notwendig ist. In der vorliegenden Arbeit wurde zunächst ein Überblick über meta-barcoding erstellt. Die Methode wurde dann für die Analyse von Bienen-gesammeltem Pollen und Bakteriengemeinschaften angewandt. Diese Studien bilden eine gute Basis, um die Vor- und Nachteile 
von meta-barcoding kritisch zu bewerten. Vorteile beinhalten unter anderem, dass Organismen 
bestimmt werden können, ohne dass Expertenkenntnisse notwendig sind, sowie der hohe Durchsatz von 
Proben und Sequenzen. In der Mikrobiologie kann meta-barcoding eine gerichtete Kultivierung von 
Bakterien erleichtern, die durch meta-barcoding als Zielorganismen indentifiziert wurden. Nachteile 
finden sich in der manchmal noch unzureichenden Unterscheidung nah ver- wandter Arten aufgrund von 
kurzen Sequenzlängen und lückenhaften Referenzdatenbanken, sowie Einschränkungen in der 
Abschätzung von Abundanzen und Funktionen der Organismen innerhalb der Artgemeinschaft. Trotz 
dieser Problematiken ist meta-barcoding eine leistungsstarke Methode für die Analyse von 
Artgemeinschaften und ist besonders vielversprechend
für automatisiertes Bio-Monitoring.
KW  - Bacterial community analysis
KW  - pollen analysis
KW  - Biodiversity assessment
KW  - Meta-barcoding
KW  - Biodiversität
KW  - DNS-Sequenz
Y1  - 2016
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-144573
ER  -