TY - THES A1 - Kuhn [geb. Bach], Julia Elisa T1 - Design und Etablierung von Next Generation Sequencing-Methoden zur Diagnostik verschiedener Erbkrankheiten T1 - Design and establishment of next-generation sequencing methods for diagnostics of different hereditary diseases N2 - Innerhalb des letzten Jahrzehnts entstanden zahlreiche neue Anreicherungs- und Sequenzier-technologien der zweiten (und dritten) Generation, die in rasantem Tempo weiterentwickelt und schon jetzt in vielen Bereichen als neuer Goldstandard für molekulargenetische For-schung und Diagnostik angesehen werden. Als Hochdurchsatz-Verfahren ermöglichen diese Next Generation Sequencing-Methoden (NGS) in immer kürzerer Zeit die parallele Analyse zahlreicher Proben und immer größerer Zielregionen bis hin zum ganzen Genom und führten in der Humangenetik dadurch zu Forschungsansätzen in neuen Dimensionen. In dieser Doktorarbeit, die im molekulargenetischen Diagnostik-Labor der Humangenetik Würzburg durchgeführt wurde, wurden in fünf Projekten NGS-Ansätze unterschiedlicher Stufen bzw. Größenordnungen für verschiedene erblich bedingte Erkrankungen konzipiert und etabliert und in Forschungsprojekten sowie der Routinediagnostik eingesetzt. Dabei wurden verschiedene Methoden zur Anreicherung der Zielsequenzen und zur NGS-Sequenzierung erprobt und auf ihre Effizienz beurteilt. Die Ergebnisse des NGS und darauf basierender Nachweis-Experimente wurden in sieben Veröffentlichungen dokumentiert, auf denen diese Dissertation aufbaut. In den drei ersten Projekten wurden das Access Array-System (Fluidigm) zur Anreicherung der Zielsequenzen und der GS Junior (Roche) zur Erzeugung der Sequenzen verwendet. In Projekt 1 wurde COL4A6 als neues Kandidatengen für nicht-syndromale Hörstörungen identifiziert. Um mögliche weitere Mutationsträger zu detektieren, wurde erfolgreich ein kleiner NGS-Ansatz für das zügige Screening dieses Gens bei knapp 100 weiteren Patienten etabliert. Diese und weitere Ergebnisse bestätigten die Kausalität der COL4A6-Mutation eines Index-Patienten mit schwerer, X-chromosomal-rezessiver Hörstörung. Ein geeigneter NGS-Ansatz für die Analyse des großen RYR1-Gens wurde in Projekt 2 ge-sucht. Der erste Ansatz mit Access Array-System und GS Junior führte zwar bei 39 von 87 Patienten mit Maligner Hyperthermie und/oder Central Core Disease zu dem Auffinden einer (potentiell) pathogenen Variante, allerdings mit hohen Ausfallquoten. Mit der zweiten Methode (Anreicherung: SureSelect-System custom design, Agilent; Sequenzierung: HiSeq, Illumina) wurden neben RYR1 noch 63 weitere Gene analysiert, was zu deutlich besseren Ergebnissen und vier Mutationsfunden führte. Projekt 3 beinhaltete die Etablierung zwei kleiner Panels für Muskelkrankheiten. Ein Panel für drei Gene für Gliedergürteldystrophien wurde sogar erfolgreich in die akkreditierte Rou-tinediagnostik übernommen. Mit dem zweiten Panel für acht Kandidatengene myofibrillärer Myopathien (MFM) wurde u.a. eine neue Mutation im BAG3-Gen identifiziert. Das Exom eines MFM-Patienten wurde in Projekt 4 nach Anreicherung mit dem SureSelect-System (Agilent) auf dem HiSeq (Illumina) sequenziert. Nach Auswertung und Beurteilung der identifizierten Varianten wurde ein neuer Erbgang für Myotilinopathien entdeckt. Verschiedene Nachweisexperimente bestätigten die Kausalität der Mutation im Myotilin-Gen. In Projekt 5 wurde die komplette genomische Sequenz des F8-Gens nach tiefen intronischen Mutationen bei Hämophilie-Patienten abgesucht (Anreicherung SureSelect custom design, Agilent; Sequenzierung MiSeq, Illumina). Bei jedem der analysierten Patienten konnte min-destens eine verdächtige Variante identifiziert werden, die zu verändertem Spleißverhalten führen könnte. Drei Mutationen waren schon durch Publikationen bekannt, bei einer weite-ren konnten in vitro-Spleißanalysen die Kausalität bestätigen. Die Ergebnisse dieser Arbeit zeigen, dass die zur Verfügung stehenden Methoden zur An-reicherung von Zielsequenzen aus dem menschlichen Genom und zu deren Sequenzierung je nach Komplexität der Fragestellung, d.h. der Anzahl und Größe der Gene sowie der Anzahl der zu untersuchenden Proben, sinnvoll und effizient kombiniert werden können. Im Verlauf der Arbeit haben sich die NGS-Techniken rasant weiterentwickelt. So sind PCR-basierte Ansätze zur Anreicherung der Zielsequenzen für die meisten Anwendungen von hybridisierungs-basierten Methoden verdrängt worden. Von den ursprünglich drei konkur-rierenden Verfahren zur Hochdurchsatzsequenzierung hat sich die Methode des „sequen-cing-by-synthesis“ (Illumina) weitgehend durchgesetzt. Diese Entwicklung spiegelt sich auch in den während dieser Arbeit erhobenen Daten wider. N2 - Several enrichment and sequencing technologies of the second (and third) generation have been developed in the past decade, were rapidly refined and are already considered as new state of the art method in several fields of molecular genetic research and diagnostics. Con-sidered as high-throughput technologies, these next-generation sequencing methods (NGS) allow the parallel analysis of several samples and regions of interests up to whole genomes in decreasing time and thus permitted research projects with novel dimensions in human genetics. This doctoral thesis was performed at the molecular genetic laboratory at the Department of Human Genetics in Würzburg. In five projects, NGS approaches of variable scale and for different hereditary diseases were designed, established and applied in research and routine diagnostics. Different methods for target enrichment and NGS analysis were tested and evaluated concerning their efficiency. The results of NGS and subsequent verification ex-periments were documented in seven publications forming the basis of this dissertation. In project 1 - 3, the Access Array system (Fluidigm) was used for target enrichment and the GS Junior (Roche) for sequence generation. COL4A6 has been identified as novel candidate gene for non-syndromic hereditary hearing loss in project 1. A small NGS approach was established to screen this gene in approx. 100 patients with hearing loss in order to search for additional carriers of COL4A6 mutations. The results of this and further experiments confirmed the causality of the COL4A6 mutation found in the index patient with severe X-linked hearing loss. Project 2 aimed at finding a convenient NGS method for the analysis of the large RYR1 gene. A first approach with the Access Array system and the GS Junior lead to the identifi-cation of a (potential) pathogenic mutation in 39 out of 87 patients with malignant hyper-thermia and / or central core disease, but with high failure rates. RYR1 and 63 further genes were then analyzed in a second approach (target enrichment with SureSelect custom design, Agilent; sequence analysis on a HiSeq, Illumina) providing considerably improved results and the identification of four mutations in five patients. Two small panels for muscular diseases were established in project 3. A panel for three genes associated with limb-girdle muscular dystrophies were even successfully applied in accredited routine diagnostics. A novel mutation in the BAG3 gene could be identified using the second panel established for eight candidate genes of myofibrillar myopathies (MFMs). The exome of a patient with MFM was analyzed in project 4 after target enrichment with the SureSelect system (Agilent) and sequence analysis on a HiSeq (Illumina). A novel in-heritance pattern of myotilinopathy was identified after analysis and evaluation of the de-tected variants. Several experiments confirmed the causality of the mutation in the myotilin gene. In project 5, the whole genomic sequence of the F8 gene was analyzed for deep intronic mutations in haemophilic patients (target enrichment with SureSelect custom design, Ag-ilent; sequence analysis on a MiSeq, Illumina). In each of the patients at least one conspicu-ous variant was identified probably leading to alternative splicing. Three mutations were known by publications and for another one causality could be proven by an in vitro splicing assay. The results of this doctoral thesis show that the available methods for target enrichment and sequence analysis of specific targets of the human genome can be combined in a reasonable and efficient way considering the number and size of the targeted genes and probes. During the course of this doctoral thesis, NGS technologies have been further developed in a rapid way. For most applications, PCR-based technologies for target enrichment have been dis-placed by hybridization-based methods. Of the originally three competing techniques of high-throughput sequencing the “sequencing-by-synthesis” method (Illumina) has become the widely accepted standard. This development is reflected in the data generated in this doctoral thesis. KW - Diagnostik KW - DNA-Sequenz KW - Erbkrankheit KW - Next Generation Sequencing KW - Mutation KW - Humangenetik Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-116854 ER - TY - THES A1 - Pischimarov, Jordan Ivanov T1 - Bioinformatische Methoden zur Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen T1 - Bioinformatics approaches for the detection and classification of somatic mutations in hematological malignancies N2 - Die Sequenzierungstechnologien entwickeln sich stetig weiter, dies ermöglicht eine zuvor nicht erreichte Ausbeute an experimentellen Daten und auch an Neuentwicklungen von zuvor nicht realisierbaren Experimenten. Zugleich werden spezifische Datenbanken, Algorithmen und Softwareprogramme entwickelt, um die neu entstandenen Daten zu analysieren. Während der Untersuchung bioinformatischer Methoden für die Identifizierung und Klassifizierung somatischer Mutationen in hämatologischen Erkrankungen, zeigte sich eine hohe Vielfalt an alternativen Softwaretools die für die jeweiligen Analyseschritte genutzt werden können. Derzeit existiert noch kein Standard zur effizienten Analyse von Mutationen aus Next-Generation-Sequencing (NGS)-Daten. Die unterschiedlichen Methoden und Pipelines generieren Kandidaten, die zum größten Anteil in allen Ansätzen identifiziert werden können, jedoch werden Software spezifische Kandidaten nicht einheitlich detektiert. Um eine einheitliche und effiziente Analyse von NGS-Daten durchzuführen war im Rahmen dieser Arbeit die Entwicklung einer benutzerfreundlichen und einheitlichen Pipeline vorgesehen. Hierfür wurden zunächst die essentiellen Analysen wie die Identifizierung der Basen, die Alignierung und die Identifizierung der Mutationen untersucht. Des Weiteren wurden unter Berücksichtigung von Effizienz und Performance diverse verfügbare Softwaretools getestet, ausgewertet und sowohl mögliche Verbesserungen als auch Erleichterungen der bisherigen Analysen vorgestellt und diskutiert. Durch Mitwirken in Konsortien wie der klinischen Forschergruppe 216 (KFO 216) und International Cancer Genome Consortium (ICGC) oder auch bei Haus-internen Projekten wurden Datensätze zu den Entitäten Multiples Myelom (MM), Burkitt Lymphom (BL) und Follikuläres Lymphom (FL) erstellt und analysiert. Die Selektion geeigneter Softwaretools und die Generierung der Pipeline basieren auf komparativen Analysen dieser Daten, sowie auf geteilte Ergebnisse und Erfahrungen in der Literatur und auch in Foren. Durch die gezielte Entwicklung von Skripten konnten biologische und klinische Fragestellungen bearbeitet werden. Hierzu zählten eine einheitliche Annotation der Gennamen, sowie die Erstellung von Genmutations-Heatmaps mit nicht Variant-Calling-File (VCF)-Syntax konformen Dateien. Des Weiteren konnten nicht abgedeckte Regionen des Genoms in den NGS-Daten identifiziert und analysiert werden. Neue Projekte zur detaillierten Untersuchung der Verteilung von wiederkehrender Mutationen und Funktionsassays zu einzelnen Mutationskandidaten konnten basierend auf den Ergebnissen initiiert werden. Durch eigens erstellte Python-Skripte konnte somit die Funktionalität der Pipeline erweitert werden und zu wichtigen Erkenntnissen bei der biologischen Interpretation der Sequenzierungsdaten führen, wie beispielsweise zu der Detektion von drei neuen molekularen Subgruppen im MM. Die Erweiterungen, der in dieser Arbeit entwickelten Pipeline verbesserte somit die Effizienz der Analyse und die Vergleichbarkeit unserer Daten. Des Weiteren konnte durch die Erstellung eines eigenen Skripts die Analyse von unbeachteten Regionen in den NGS-Daten erfolgen. N2 - The sequencing technologies, while still being under further development, render it possible to develop novel experiments and allow the generation of larger amounts of utilizable data. At the same time novel software tools, databases and algorithms are developed to analyze these larger amounts of data. The analysis of somatic mutations in hematological malignancies showed that a high variety of alternative software tools can be used for different analysis steps. Furthermore there is currently no standardized procedure for the efficient identification and analysis of mutations in NGS data. The different pipeline and methods are, for the most part, able to identify the same mutation candidates, however there are software specific candidates which are not called by all pipelines. The scope of this dissertation was therefore to develop a user-friendly pipeline which is able to call candidate mutations uniformly and efficiently. For this purpose necessary analysis steps including base calling, alignment generation and variant calling were investigated. Furthermore available software tools were tested and evaluated regarding their efficiency and performance. Possible improvements of these software tools and previously performed analysis are explained and discussed in this work. NGS data sets of the different cancer entities multiple myeloma (MM), Burkitt lymphoma (BL) and follicular lymphoma (FL) were generated and analyzed within the framework of cooperate projects like the International Cancer Genome Consortium (ICGC) and the Clinical Research Group 216 (KFO) as well as for internal projects. The development of the pipeline and selection of suitable software tools is based on the comparative analysis of the generated data sets, as well as previously described results and experiences in literature and forums. The selective development of certain python scripts enabled the evaluation of novel biological and clinical questions by standardizing gene names in the annotation step, generating heat- maps of non-standardized VCF-files as well as the identification and analysis of uncovered regions in NGS data sets. This work and the obtained results thereby provide the groundwork for further projects e.g. the analysis of the distribution of recurrent mutations or the functional analysis of specific mutation candidates. This extensions of the developed pipeline with python scripts helped to improve the efficiency and comparability of the NGS data. The interpretation of the NGS data with the extended script for example led to the discovery of three distinct molecular subgroups in MM. Furthermore the generation of the novel python scripts helped to analyze uncovered regions in the NGS data sets.  KW - Pipeline-Rechner KW - somatische Mutationen KW - Sequenzierung KW - Bioinformatik KW - Identifizierungspipeline KW - Next Generation Sequencing KW - Variantcalling KW - Bioinformatic KW - somatic mutations KW - DNS-Sequenz KW - Somatische Mutation Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-147773 ER -