TY - THES A1 - Engelmann, Julia Cathérine T1 - DNA microarrays: applications and novel approaches for analysis and interpretation T1 - DNA Mikroarrays: Anwendungen und neue Ansätze für die Analyse und Interpretation N2 - In der vorliegenden Dissertation wird die Entwicklung eines phylogenetischen DNA Microarrays, die Analyse von mehreren Microarray-Genexpressionsdatensätzen und neue Ansätze für die Datenanalyse und Interpretation der Ergebnisse vorgestellt. Die Entwicklung und Analyse der Daten eines phylogenetischen DNA Microarrays wird in der ersten Publikation dargestellt. Ich konnte zeigen, dass die Spezies-Detektion mit phylogenetischen Microarrays durch die Datenanalyse mit einem linearen Regressionsansatz signifikant verbessert werden kann. Standard-Methoden haben bislang nur Signalintensitäten betrachtet und eine Spezies als an- oder abwesend bezeichnet, wenn die Signalintensität ihres Messpunktes oberhalb eines willkürlich gesetzten Schwellenwertes lag. Dieses Verfahren ist allerdings aufgrund von Kreuz-Hybridisierungen nicht auf sehr nah verwandte Spezies mit hoher Sequenzidentität anwendbar. Durch die Modellierung des Hybridisierungs und Kreuz-Hybridisierungsverhaltens mit einem linearen Regressionsmodell konnte ich zeigen, dass Spezies mit einer Sequenzähnlichkeit von 97% im Markergen immer noch unterschieden werden können. Ein weiterer Vorteil der Modellierung ist, dass auch Mischungen verschiedener Spezies zuverlässig vorhergesagt werden können. Theoretisch sind auch quantitative Vorhersagen mit diesem Modell möglich. Um die großen Datenmengen, die in öffentlichen Microarray-Datenbanken abgelegt sind besser nutzen zu können, bieten sich Meta-Analysen an. In der zweiten Publikation wird eine explorative Meta-Analyse auf Arabidopsis thaliana-Datensätzen vorgestellt. Mit der Analyse verschiedener Datensätze, die den Einfluss von Pflanzenhormonen, Pathogenen oder verschiedenen Mutationen auf die Genexpression untersucht haben, konnten die Datensätze anhand ihrer Genexpressionsprofile in drei große Gruppen eingeordnet werden: Experimente mit Indol-3-Essigsäure (IAA), mit Pathogenen und andere Experimente. Gene, die charakteristisch für die Gruppe der IAA-Datensätze beziehungsweise für die Gruppe der Pathogen-Datensätze sind, wurden näher betrachtet. Diese Gene hatten Funktionen, die bereits mit Pathogenbefall bzw. dem Einfluss von IAA in Verbindung gebracht wurden. Außerdem wurden Hypothesen über die Funktionen von bislang nicht annotierten Genen aufgestellt. In dieser Arbeit werden auch Primäranalysen von einzelnen Arabidopsis thaliana Genexpressions-Datensätzen vorgestellt. In der dritten Publikation wird ein Experiment beschrieben, das durchgeführt wurde um herauszufinden ob Mikrowellen-Strahlung einen Einfluss auf die Genexpression einer Zellkultur hat. Dazu wurden explorative Analysemethoden angewendet. Es wurden geringe aber signifikante Veränderungen in einer sehr kleinen Anzahl von Genen beobachtet, die experimentell bestätigt werden konnten. Die Funktionen der regulierten Gene und eine Meta-Analyse mit öffentlich zugänglichen Datensätzen einer Datenbank deuten darauf hin, dass die pflanzliche Zellkultur die Strahlung als eine Art Energiequelle ähnlich dem Licht wahrnimmt. Des weiteren wird in der vierten Publikation die funktionelle Analyse eines Arabidopsis thaliana Genexpressionsdatensatzes beschrieben. Die Analyse der Genexpressions eines pflanzlichen Tumores zeigte, dass er seinen Stoffwechsel von aerob und auxotroph auf anaerob und heterotroph umstellt. Gene der Photosynthese werden im Tumorgewebe reprimiert, Gene des Aminosäure- und Fettstoffwechsels, der Zellwand und Transportkanäle werden so reguliert, dass Wachstum und Entwicklung des Tumors gefördert werden. In der fünften Publikation in dieser Arbeit wird GEPAT (Genome Expression Pathway Analysis Tool) beschrieben. Es besteht aus einer Internet- Anwendung und einer Datenbank, die das einfache Hochladen von Datensätzen in die Datenbank und viele Möglichkeiten der Datenanalyse und die Integration anderer Datentypen erlaubt. In den folgenden zwei Publikationen (Publikation 6 und Publikation 7) wird GEPAT auf humane Microarray-Datensätze angewendet um Genexpressionsdaten mit weiteren Datentypen zu verknüpfen. Genexpressionsdaten und Daten aus vergleichender Genom-Hybridisierung (CGH) von primären Tumoren von 71 Mantel-Zell-Lymphom (MCL) Patienten ermöglichte die Ermittlung eines Prädiktors, der die Vorhersage der Überlebensdauer von Patienten gegenüber herkömmlichen Methoden verbessert. Die Analyse der CGH Daten zeigte, dass auch diese für die Vorhersage der Überlebensdauer geeignet sind. Für den Datensatz von Patienten mit großzellig diffusem B-Zell-Lymphom DLBCL konnte aus den Genexpressionsdaten ebenfalls ein neuer Prädiktor vorgeschlagen werden. Mit den zwischen lang und kurz überlebenden Patienten differentiell exprimierten Genen der MCL Patienten und mit den Genen, die zwischen den beiden Untergruppen von DLBCL reguliert sind, wurden Interaktionsnetzwerke gebildet. Diese zeigen, dass bei beiden Krebstypen Gene des Zellzyklus und der Proliferation zwischen Patienten mit kurzer und langer Überlebensdauer unterschiedlich reguliert sind. N2 - In this thesis, the development of a phylogenetic DNA microarray, the analysis of several gene expression microarray datasets and new approaches for improved data analysis and interpretation are described. In the first publication, the development and analysis of a phylogenetic microarray is presented. I could show that species detection with phylogenetic DNA microarrays can be significantly improved when the microarray data is analyzed with a linear regression modeling approach. Standard methods have so far relied on pure signal intensities of the array spots and a simple cutoff criterion was applied to call a species present or absent. This procedure is not applicable to very closely related species with high sequence similarity because cross-hybridization of non-target DNA renders species detection impossible based on signal intensities alone. By modeling hybridization and cross-hybridization with linear regression, as I have presented in this thesis, even species with a sequence similarity of 97% in the marker gene can be detected and distinguished from related species. Another advantage of the modeling approach over existing methods is that the model also performs well on mixtures of different species. In principle, also quantitative predictions can be made. To make better use of the large amounts of microarray data stored in public databases, meta-analysis approaches need to be developed. In the second publication, an explorative meta-analysis exemplified on Arabidopsis thaliana gene expression datasets is presented. Integrating datasets studying effects such as the influence of plant hormones, pathogens and different mutations on gene expression levels, clusters of similarly treated datasets could be found. From the clusters of pathogen-treated and indole-3-acetic acid (IAA) treated datasets, representative genes were selected which pointed to functions which had been associated with pathogen attack or IAA effects previously. Additionally, hypotheses about the functions of so far uncharacterized genes could be set up. Thus, this kind of meta-analysis could be used to propose gene functions and their regulation under different conditions. In this work, also primary data analysis of Arabidopsis thaliana datasets is presented. In the third publication, an experiment which was conducted to find out if microwave irradiation has an effect on the gene expression of a plant cell culture is described. During the first steps, the data analysis was carried out blinded and exploratory analysis methods were applied to find out if the irradiation had an effect on gene expression of plant cells. Small but statistically significant changes in a few genes were found and could be experimentally confirmed. From the functions of the regulated genes and a meta-analysis with publicly available microarray data, it could be suspected that the plant cell culture somehow perceived the irradiation as energy, similar to perceiving light rays. The fourth publication describes the functional analysis of another Arabidopsis thaliana gene expression dataset. The gene expression data of the plant tumor dataset pointed to a switch from a mainly aerobic, auxotrophic to an anaerobic and heterotrophic metabolism in the plant tumor. Genes involved in photosynthesis were found to be repressed in tumors; genes of amino acid and lipid metabolism, cell wall and solute transporters were regulated in a way that sustains tumor growth and development. Furthermore, in the fifth publication, GEPAT (Genome Expression Pathway Analysis Tool), a tool for the analysis and integration of microarray data with other data types, is described. It consists of a web application and database which allows comfortable data upload and data analysis. In later chapters of this thesis (publication 6 and publication 7), GEPAT is used to analyze human microarray datasets and to integrate results from gene expression analysis with other datatypes. Gene expression and comparative genomic hybridization data from 71 Mantle Cell Lymphoma (MCL) patients was analyzed and allowed proposing a seven gene predictor which facilitates survival predictions for patients compared to existing predictors. In this study, it was shown that CGH data can be used for survival predictions. For the dataset of Diffuse Large B-cell lymphoma (DLBCL) patients, an improved survival predictor could be found based on the gene expression data. From the genes differentially expressed between long and short surviving MCL patients as well as for regulated genes of DLBCL patients, interaction networks could be set up. They point to differences in regulation for cell cycle and proliferation genes between patients with good and bad prognosis. KW - Microarray KW - Differentielle Genexpression KW - Genexpression KW - Statistische Analyse KW - Cluster-Analyse KW - Datenanalyse KW - Explorative Datenanalyse KW - Non-Hodgkin-Lymphom KW - B-Zell-Lymphom KW - Metabolom KW - Tumorklassifikation KW - Tumor KW - Krebs KW - Schmalwa KW - phylogenetische Arrays KW - Interaktionsnetzwerke KW - lineare Regression KW - DNA microarray KW - gene expression KW - statistical analysis KW - clustering KW - classification KW - interaction networks Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-29747 ER - TY - THES A1 - Reinhard, Sebastian T1 - Improving Super-Resolution Microscopy Data Reconstruction and Evaluation by Developing Advanced Processing Algorithms and Artifcial Neuronal Networks T1 - Verbesserung von Datenrekonstruktion und -auswertung in der Super-Resolution Mikroskopie durch die Entwicklung von fortgeschrittenen Verarbeitungsalgorithmen und künstlichen neuronalen Netzen N2 - The fusion of methods from several disciplines is a crucial component of scientific development. Artificial Neural Networks, based on the principle of biological neuronal networks, demonstrate how nature provides the best templates for technological advancement. These innovations can then be employed to solve the remaining mysteries of biology, including, in particular, processes that take place on microscopic scales and can only be studied with sophisticated techniques. For instance, direct Stochastic Optical Reconstruction Microscopy combines tools from chemistry, physics, and computer science to visualize biological processes at the molecular level. One of the key components is the computer-aided reconstruction of super-resolved images. Improving the corresponding algorithms increases the quality of the generated data, providing further insights into our biology. It is important, however, to ensure that the heavily processed images are still a reflection of reality and do not originate in random artefacts. Expansion microscopy is expanding the sample by embedding it in a swellable hydrogel. The method can be combined with other super-resolution techniques to gain additional resolution. We tested this approach on microtubules, a well-known filamentous reference structure, to evaluate the performance of different protocols and labelling techniques. We developed LineProfiler an objective tool for data collection. Instead of collecting perpendicular profiles in small areas, the software gathers line profiles from filamentous structures of the entire image. This improves data quantity, quality and prevents a biased choice of the evaluated regions. On the basis of the collected data, we deployed theoretical models of the expected intensity distribution across the filaments. This led to the conclusion that post-expansion labelling significantly reduces the labelling error and thus, improves the data quality. The software was further used to determine the expansion factor and arrangement of synaptonemal complex data. Automated Simple Elastix uses state-of-the-art image alignment to compare pre- and post-expansion images. It corrects linear distortions occurring under isotropic expansion, calculates a structural expansion factor and highlights structural mismatches in a distortion map. We used the software to evaluate expanded fungi and NK cells. We found that the expansion factor differs for the two structures and is lower than the overall expansion of the hydrogel. Assessing the fluorescence lifetime of emitters used for direct Stochastic Optical Reconstruction Microscopy can reveal additional information about the molecular environment or distinguish dyes emitting with a similar wavelength. The corresponding measurements require a confocal scanning of the sample in combination with the fluorescent switching of the underlying emitters. This leads to non-linear, interrupted Point Spread Functions. The software ReCSAI targets this problem by combining the classical algorithm of compressed sensing with modern methods of artificial intelligence. We evaluated several different approaches to combine these components and found, that unrolling compressed sensing into the network architecture yields the best performance in terms of reconstruction speed and accuracy. In addition to a deep insight into the functioning and learning of artificial intelligence in combination with classical algorithms, we were able to reconstruct the described non-linearities with significantly improved resolution, in comparison to other state-of-the-art architectures. N2 - Für die Weiterentwicklung der Wissenschaft wird es immer wichtiger, Methoden aus verschiedenen Gebieten zu kombinieren. Die künstliche Intelligenz beruht beispielsweise auf dem Prinzip biologischer neuronaler Netze. Hier wird die Natur als Vorlage für unsere technische Entwicklung genutzt. Diese Innovationen können dazu eingesetzt werden, die verbliebenen Rätsel der Biologie zu lösen. Dazu gehören insbesondere Prozesse, die sich auf mikroskopischer Ebene abspielen und nur mit hochentwickelten Techniken untersucht werden können. Die direkte Stochastisch Optische Rekonstruktionsmikroskopie kombiniert Methoden der Chemie, Physik und Informatik, um biologische Prozesse auf molekularer Ebene sichtbar zu machen. Eine der Schlüsselkomponenten ist die computergestützte Rekonstruktion von hochaufgelösten Bildern. Die Verbesserung der zugrunde liegenden Algorithmen erhöht die Qualität der erzeugten Daten und ermöglicht weitere Einblicke in unsere Biologie. Es muss jedoch sichergestellt werden, dass die künstlich erstellten Bilder immer noch ein Abbild der Realität sind und nicht auf zufälligen Artefakten beruhen. Expansionsmikroskopie vergrößert die Probe durch Einbettung in ein Hydrogel. Die Methode kann mit anderen hochauflösenden Techniken kombiniert werden, um die Auflösung noch weiter zu verbessern. Dieser Ansatz wurde an Mikrotubuli, einer bekannten flamentösen Referenzstruktur, verwendet, um verschiedene Protokolle und Markierungstechniken zu testen. Mit LineProfiler wurde ein objektives Werkzeug zur Datenerfassung entwickelt. Anstatt Linienprofle in kleinen Bereichen zu erfassen, wertet die Software das gesamte Bild aus. Dies verbessert die Datenmenge und Datenqualität und verhindert eine voreingenommene Auswahl der ausgewerteten Regionen. Auf Grundlage der gesammelten Daten wurden theoretische Modelle für die erwartete Intensitätsverteilung über die Filamente erstellt. Daraus konnte geschlossen werden, dass die Markierung nach der Expansion den Markierungsfehler erheblich reduziert und somit die Qualität der Daten verbessert. Die Software wurde außerdem zur Bestimmung des Expansionsfaktors und der Anordnung der Daten des synaptonemalen Komplexes verwendet. Automated Simple Elastix verwendet modernste Bildregistrierung, um Bilder vor und nach der Expansion zu vergleichen. Lineare Verzerrungen, die bei isotroper Expansion auftreten, werden korrigiert. Der strukturelle Expansionsfaktor wird berechnet und strukturelle Unstimmigkeiten werden in einer Verzerrungskarte hervorgehoben. Die Software wurde zur Bewertung expandierter Pilze und NK-Zellen eingesetzt. Dabei wurde festgestellt, dass der Expansionsfaktor für die beiden Strukturen unterschiedlich ist und unter der Gesamtexpansion des Hydrogels liegt. Die Auswertung der Fluoreszenzlebensdauer von Emittern, die für die direkte Stochastische Optische Rekonstruktionsmikroskopie eingesetzt werden, kann zusätzliche Informationen über die molekulare Umgebung liefern oder Farbstoffe unterscheiden, die VI eine ähnliche Lichtwellenlänge emittieren. Die entsprechenden Messungen erfordern eine konfokale Abtastung der Probe in Kombination mit dem fluoreszenten Schalten der zugrunde liegenden Emitter. Dies führt zu nichtlinearen, unterbrochenen Punktspreizfunktionen. Die Software ReCSAI löst dieses Problem, indem sie den klassischen Algorithmus des Compressed Sensing mit modernen Methoden der künstlichen Intelligenz kombiniert. Es wurden verschiedene Ansätze zur Kombination der Komponenten ausgewertet und festgestellt, dass die Integration von Compressed Sensing in die Netzwerkarchitektur die beste Performance in Bezug auf Rekonstruktionsgeschwindigkeit und -genauigkeit bringt. Neben einem tiefen Einblick in die Funktionsweise und das Lernen von künstlicher Intelligenz in Kombination mit klassischen Algorithmen konnten die beschriebenen Nichtlinearitäten mit einer deutlich verbesserten Auflösung im Vergleich zu anderen modernen Architekturen rekonstruiert werden. KW - Mikroskopie KW - Künstliche Intelligenz KW - Datenanalyse KW - Bildverarbeitung KW - Compressed Sensing KW - Lifetime Imaging KW - dSTORM Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-316959 ER - TY - THES A1 - Shkumatov, Alexander V. T1 - Methods for hybrid modeling of solution scattering data and their application T1 - Methoden zur Hybriden Modellierung von SAXS Daten (Röntgenkleinwinkelstreuung) und deren Anwendung N2 - Small-angle X-ray scattering (SAXS) is a universal low-resolution method to study proteins in solution and to analyze structural changes in response to variations of conditions (pH, temperature, ionic strength etc). SAXS is hardly limited by the particle size, being applicable to the smallest proteins and to huge macromolecular machines like ribosomes and viruses. SAXS experiments are usually fast and require a moderate amount of purified material. Traditionally, SAXS is employed to study the size and shape of globular proteins, but recent developments have made it possible to quantitatively characterize the structure and structural transitions of metastable systems, e.g. partially or completely unfolded proteins. In the absence of complementary information, low-resolution macromolecular shapes can be reconstructed ab initio and overall characteristics of the systems can be extracted. If a high or low-resolution structure or a predicted model is available, it can be validated against the experimental SAXS data. If the measured sample is polydisperse, the oligomeric state and/or oligomeric composition in solution can be determined. One of the most important approaches for macromolecular complexes is a combined ab initio/rigid body modeling, when the structures (either complete or partial) of individual subunits are available and SAXS data is employed to build the entire complex. Moreover, this method can be effectively combined with information from other structural, computational and biochemical methods. All the above approaches are covered in a comprehensive program suite ATSAS for SAXS data analysis, which has been developed at the EMBL-Hamburg. In order to meet the growing demands of the structural biology community, methods for SAXS data analysis must be further developed. This thesis describes the development of two new modules, RANLOGS and EM2DAM, which became part of ATSAS suite. The former program can be employed for constructing libraries of linkers and loops de novo and became a part of a combined ab initio/rigid body modeling program CORAL. EM2DAM can be employed to convert electron microscopy maps to bead models, which can be used for modeling or structure validation. Moreover, the programs CRYSOL and CRYSON, for computing X-ray and neutron scattering patterns from atomic models, respectively, were refurbished to work faster and new options were added to them. Two programs, to be contributed to future releases of the ATSAS package, were also developed. The first program generates a large pool of possible models using rigid body modeling program SASREF, selects and refines models with lowest discrepancy to experimental SAXS data using a docking program HADDOCK. The second program refines binary protein-protein complexes using the SAXS data and the high-resolution models of unbound subunits. Some results and conclusions from this work are presented here. The developed approaches detailed in this thesis, together with existing ATSAS modules were additionally employed in a number of collaborative projects. New insights into the “structural memory” of natively unfolded tau protein were gained and supramodular structure of RhoA-specific guanidine nucleotide exchange factor was reconstructed. Moreover, high resolution structures of several hematopoietic cytokine-receptor complexes were validated and re-modeled using the SAXS data. Important information about the oligomeric state of yeast frataxin in solution was derived from the scattering patterns recorded under different conditions and its flexibility was quantitatively characterized using the Ensemble Optimization Method (EOM). N2 - Röntgenkleinwinkelstreuung (small angle X-ray scattering, SAXS) ist eine fundamentale niedrigauflösende Methode zur Untersuchung von Proteinen in Lösung und Analyse von Strukturänderungen unter verschiedenen Bedingungen (pH, Temperatur, Ionenstärke, usw.). SAXS ist nicht durch die Teilchengröße begrenzt und die Anwendbarkeit reicht von kleinsten Proteinen bis hin zu großen makromolekularen Maschinen, wie Ribosomen und Viren. SAXS-Experimente sind normalerweise schnell durchzuführen und erfordern eine relativ geringe Menge gereinigten Materials. SAXS wird hauptsächlich eingesetzt, um Größe und Form der globulärer Proteine zu studieren. Die neuesten Entwicklungen ermöglichen jedoch auch die Untersuchung und quantitative Charakterisierung metastabiler Systeme, wie teilweise oder vollständig ungefaltete Proteine. Für die SAXS-Datenanalyse existiert das umfassende Programmpaket ATSAS, welches am EMBL-Hamburg entwickelt wurde. Es ermöglicht die de novo Modellierung der Proteinform mit niedriger Auflösung, wenn keine ergänzende Information über die dreidimensionale Struktur vorhanden ist. Des weiteren können diverse Gesamteigenschaften des untersuchten Systems berechnet werden. Wenn ein hoch oder niedrig aufgelöstes strukturell bestimmtes oder vorgesagtes Modell vorhanden ist, kann es gegen experimentellen SAXS Daten validiert werden. Wenn die Probe polydispers ist, kann der oligomere Zustand und/oder der oligomere Zusammensetzung in Lösung bestimmt werden. Einer der wichtigsten Ansätze für SAXS Untersuchungen an makromolekularen Komplexen ist die kombinierte ab initio/Starrkörper-Modellierung, wenn entweder komplette oder partielle Strukturen der einzelnen Untereinheiten zusammen mit SAXS Daten benutzt werden, um daraus den gesamten Komplex zu konstruieren. Außerdem kann diese Methode mit Informationen von anderen strukturellen, rechnerischen und biochemischen Methoden effektiv kombiniert werden. Um den Anwendungsbereich von SAXS in der Strukturbiologie zu erweitern, müssen Methoden für die SAXS-Datenanalyse weiter entwickelt werden. Im Rahmen dieser Arbeit wurden zwei neue Module, RANLOGS und EM2DAM, entwickelt und zur ATSAS Programmsuite hinzugefügt. Ersteres kann eingesetzt werden, um eine Bibliothek verknüpfender Polypeptidketten (linkers) und -schleifen (loops) de novo aufzubauen und ist bereits ein Teil des Programms CORAL zur kombinierten ab initio/Starrkörper-Modellierung. EM2DAM kann eingesetzt werden, um Elektronenmikroskopie-Dichtekarten in Kugelmodelle umzuwandeln, welche für die Modellierung oder Struktur-Validierung benutzt werden können. Außerdem wurden die Programme CRYSOL und CRYSON zur Berechnung von Röntgenstrahl- beziehungsweise Neutronenstreumuster aus Atommodellen erweitert, um die Berechnung zu beschleunigen und neue Optionen einzubauen. Zwei weitere Programme, die noch nicht Teil des ATSAS Pakets sind, wurden entwickelt. Das erste ist ein Programm, das mögliche Proteinmodelle von Komplexen unter Verwendung des SAXS Starrkörper-Modellierung-Programms SASREF erstellt. Dann werden Modelle zu experimentellen SAXS-Daten angepasst, ausgewählt und verfeinert unter Verwendung des Protein-Protein-Docking-Programms HADDOCK. Das zweite Programm verfeinert binäre Protein-Protein-Komplexe unter Verwendung von SAXS-Daten sowie hochaufgelöster Modelle der ungebundenen Untereinheiten. Im Folgenden werden die einige Ergebnisse dargestellt und diskutiert. Die entwickelten Methoden wurden zusammen mit den vorhandenen ATSAS-Modulen im Rahmen von Kollaborationsprojekte eingesetzt. So war es möglich, neue Einblicke in das „strukturelle Gedächtnis“ des natürlicherweise ungefalteten Protein tau zu bekommen und die supramodulare Struktur eines RhoA-spezifischen Guanidinnukleotid-Austauschfaktors zu rekonstruieren. Außerdem wurden hoch aufgelöste Strukturen einiger blutbildender Cytokin-Empfänger-Komplexe unter Verwendung von SAXS Daten validiert und verfeinert. Wichtige Informationen über den oligomeren Zustand von Hefe-Frataxin in Lösung wurden aus den unter verschiedenen experimentelle Bedingungen gemessenen Streumustern abgeleitet, und seine Flexibilität wurde quantitativ unter Verwendung der Ensemble-Optimierungs-Methode (EOM) ermittelt. KW - Röntgen-Kleinwinkelstreuung KW - Tau-Protein KW - Datenanalyse KW - teilweise oder vollständig ungefaltete Proteine KW - Proteinstruktur KW - Alzheimer-Krankheit KW - SAXS KW - IDPs KW - protein structure KW - Alzheimer disease KW - tau protein Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-65044 ER - TY - THES A1 - Wagner, Silvia T1 - Identifizierung von Biomarkern mittels LC-MS-basiertem Metabonomics - Merkaptursäuren als Indikatoren für die Bildung toxischer Intermediate T1 - Identification of biomarkers via LC-MS-based metabonomics – mercapturic acids as indicators for the formation of toxic intermediates N2 - Metabonomics bildet das Ende der Omics-Kaskade und stellt eine top-down-Strategie zur Erfassung und Interpretation des Metaboloms, d. h. der Gesamtheit aller niedermolekularen Metaboliten in einem intakten Organismus, dar. Ziel der Technik ist es, mittels geeigneter ungerichteter Screeningverfahren in nicht-invasiv zu gewinnenden biologischen Proben wie Urin oder Blut charakteristische Metabolitenprofile zu bestimmen. Im Kontext des Metabonomics wurde in Anlehnung an den Geno- bzw. Phänotyp hierfür der Begriff „Metabotyp“ geprägt. Durch biostatistische Methoden, die auf Mustererkennung (pattern recognition) basieren, können Signaturen gegenübergestellt und auf diesem Weg gruppenspezifische Metaboliten, d. h. Biomarker bzw. Metabolitenmuster, extrahiert werden. Metabonomics kann folglich als Fusion klassischer bioanalytischer und biostatistischer Verfahren aufgefasst werden. Seit der Einführung im Jahr 1999 hat sich das Konzept des Metabonomics in mehrere Richtungen weiterentwickelt. So gab es Bestrebungen, die Technik, die ursprünglich zur Prädiktion von toxischen Effekten bei der Arzneistoffentwicklung etabliert wurde, auf Fragestellungen zu übertragen, die den Menschen im Mittelpunkt haben. Neben präklinischen Anwendungen verfolgt man mit Metabonomics zunehmend das Ziel, einer personalisierten Medizin und Ernährung einen Schritt näher zu kommen. Da sich die ursprünglich eingesetzte NMR-Technik als zu unempfindlich und die resultierenden Metabolitenprofile als zu anfällig gegenüber biologischen und analytischen Einflussgrößen (Confoundern) erwiesen haben, wurde parallel auf sensitivere Verfahren wie die Massenspektrometrie gesetzt. Insbesondere die Kopplung mit der Hochdruckflüssigchromatographie erwies sich hierbei für das Metabolitenscreening als geeignet. Schnell wurde allerdings klar, dass aus den klassischen full scan/TOF-Methoden Datensätze resultierten, die häufig zu komplex waren, um mit nachgeschalteten chemometrischen Verfahren die „Spreu vom Weizen trennen“ zu können. Da sich Metabolitendatenbanken bisher noch im Aufbau befinden, ist die Identifizierung der Marker mit zusätzlichen Schwierigkeiten verbunden und bedarf aufwändiger analytischer Verfahren. Eine Strategie stellt daher die Beschränkung auf ein Metabolitensubset dar. Indem man sich auf Metabolitenklassen fokussiert, die einen Bezug zum untersuchten Mechanismus haben, können die Erfolgsaussichten bei der Identifizierung charakteristischer Biomarker deutlich erhöht werden. Aufgrund zahlreicher exogener und endogener Faktoren (Arzneistoffe, Industriechemikalien, Nahrungsbestandteile, Tabakrauchbestandteile, Produkte der Lipidperoxidation etc.) ist der menschliche Organismus stets einer Vielzahl an elektrophilen Verbindungen ausgesetzt. Oxidative Schädigungen an Strukturen wie der DNA, Proteinen und Lipiden werden mit einer Reihe von Krankheitsbildern in Zusammenhang gebracht, darunter Parkinson, Alzheimer, Krebs und Volkskrankheiten wie Arteriosklerose, Allergien und koronare Herzerkrankungen. Mit dem Glutathionsystem verfügt der Körper über einen wirksamen Detoxifizierungsmechanismus. Das Tripeptid Glutathion reagiert als Nukleophil mit den exogen oder endogen gebildeten elektrophilen Intermediaten. Endprodukte sind Merkaptursäuren (N-Acetyl-L-Cystein-Addukte) bzw. deren Sulfoxide, die in erster Linie mit dem Urin ausgeschieden werden. Folglich besteht zwischen diesen Merkaptursäurederivaten und der elektrophilen Belastung eines Organismus ein direkter Zusammenhang. Vor diesem Hintergrund war es das Ziel der Arbeit, einen nicht-invasiven Metabonomicsansatz zur Anwendung am Menschen zu entwickeln. Durch die Fokussierung des Metabolitenscreenings auf die Effekt-, Dosis- und Suszeptibilitätsmarkerklasse der Merkaptursäuren sollten hierbei die Erfolgsaussichten im Hinblick auf die Identifizierung potentieller Biomarker für diverse toxikologische sowie medizinische Endpunkte erhöht werden. N2 - Metabonomics forms the end of the omics-cascade and represents a top-down strategy for the interpretation of the metabolome, i. e. all the low molecular weight metabolites in an intact organism. The aim of the approach is to analyse characteristic metabolite profiles by suitable untargeted screening methods in biological samples like urine or blood that can be obtained in a non-invasive manner. In the context of metabonomics, the term “metabotype” was defined according to the geno- and phenotype, respectively. Biostatistical methods based on pattern recognition techniques allow comparing metabolic signatures and extracting group specific metabolites and biomarkers. Therefore, metabonomics can be regarded as the fusion of bioanalytical and biostatistical techniques. Since its introduction in 1999, the concept of metabonomics has permanently gained importance in many fields of scientific research. One aim was to transfer the methodology, which was originally established to predict toxic effects in drug development processes, to human issues. Apart from preclinical questions, metabonomics is increasingly applied in the area of personalised medicine and nutrition. As the NMR technique used by pioneers of the field was too insensitive and the resulting metabolite profiles were too susceptible to biological and analytical confounders, more sensitive techniques like mass spectrometry were more and more applied. Especially mass spectrometry in combination with high performance liquid chromatography showed great promise for the screening of metabolites. However, after a very short time, it was clear that the data sets resulting from full scan/TOF-methods were too complex to “separate the wheat from the chaff” with chemometric procedures. Metabolite databases are still under construction, and therefore marker identification is challenging and requires complex analytical techniques. Thus, one strategy is to concentrate on a certain metabolite subset. The focus on a metabolite class with a close relation to the mechanism under investigation can considerably increase the prospects of success in the biomarker identification process. Due to a variety of exogenous and endogenous factors (drugs, industrial chemicals, food ingredients, and tobacco smoke) the human organism is steadily confronted with a multitude of electrophilic compounds. Oxidative damage of the DNA, proteins, and lipids is associated with the development of diseases like Parkinson’s, Alzheimer’s, cancer and widespread diseases like arteriosclerosis, allergies and coronary heart diseases. With the glutathione system the human organism is equipped with an efficient detoxification mechanism. The tripeptide glutathione reacts as nucleophile with exogenously and endogenously formed electrophilic intermediates. End products are mercapturic acids (N-acetyl-L-cysteine-adducts) and respective sulfoxides that are predominantly excreted with urine. Therefore, there is a close relationship between these mercapturic acid patterns and the electrophilic burden of an organism. In this context, the aim of this thesis was to develop a non-invasive human metabonomics approach that focuses the metabolite screening on the effect, dose and susceptibility marker class of the mercapturic acids. Thus, the prospects of success regarding the identification of potential biomarkers for various toxicological and pathological endpoints should be increased. KW - Metabolom KW - Biomarker KW - Datenanalyse KW - Paracetamol KW - Validierung KW - Tetrachlormethan KW - Raucher KW - Tabakrauch KW - Zigarettenrauch KW - Biostatistik KW - Chemometrie KW - Hauptkomponentenanalyse KW - Methode der partiellen kleinsten Quadrate KW - Diskriminanzanalyse KW - Fl KW - Merkaptursäuren KW - Metabonomics KW - Metabolomics KW - Expositionsmarker KW - mercapturic acids KW - metabonomics KW - metabolomics KW - markers of exposure Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-35760 ER - TY - THES A1 - Weniger, Markus T1 - Genome Expression Pathway Analysis Tool - Analyse und Visualisierung von Microarray Genexpressionsdaten unter genomischen, proteomischen und metabolischen Gesichtspunkten T1 - Genom Expression Pathway Analysis Tool - Analysis and visualization of microarray gene expression data under genomic, proteomic and metabolic context N2 - Die Messung der Genexpression ist für viele Bereiche der Biologie und Medizin wichtig geworden und unterstützt Studien über Behandlung, Krankheiten und Entwicklungsstadien. Microarrays können verwendet werden, um die Expression von tausenden mRNA-Molekülen gleichzeitig zu messen und ermöglichen so einen Einblick und einen Vergleich der verschiedenen zellulären Bedingungen. Die Daten, die durch Microarray-Experimente gewonnen werden, sind hochdimensional und verrauscht, eine Interpretation der Daten ist deswegen nicht einfach. Obwohl Programme für die statistische Auswertung von Microarraydaten existieren, fehlt vielen eine Integration der Analyseergebnisse mit einer automatischen Interpretationsmöglichkeit. In dieser Arbeit wurde GEPAT, Genome Expression Pathway Analysis Tool, entwickelt, das eine Analyse der Genexpression unter dem Gesichtspunkten der Genomik, Proteomik und Metabolik ermöglicht. GEPAT integriert statistische Methoden zum Datenimport und -analyse mit biologischer Interpretation für Genmengen oder einzelne Gene, die auf dem Microarray gemessen werden. Verschiedene Typen von Oligonukleotid- und cDNAMicroarrays können importiert werden, unterschiedliche Normalisierungsmethoden können auf diese Daten angewandt werden, anschließend wird eine Datenannotation durchgeführt. Nach dem Import können mit GEPAT verschiedene statische Datenanalysemethoden wie hierarchisches, k-means und PCA-Clustern, ein auf einem linearen Modell basierender t-Test, oder ein Vergleich chromosomaler Profile durchgeführt werden. Die Ergebnisse der Analysen können auf Häufungen biologischer Begriffe und Vorkommen in Stoffwechselwegen oder Interaktionsnetzwerken untersucht werden. Verschiedene biologische Datenbanken wurden integriert, um zu jeder Gensonde auf dem Array Informationen zur Verfügung stellen zu können. GEPAT bietet keinen linearen Arbeitsablauf, sondern erlaubt die Benutzung von beliebigen Teilmengen von Genen oder biologischen Proben als Startpunkt einer neuen Analyse oder Interpretation. Dabei verlässt es sich auf bewährte Datenanalyse-Pakete, bietet einen modularen Ansatz zur einfachen Erweiterung und kann auf einem verteilten Computernetzwerk installiert werden, um eine große Zahl an Benutzern zu unterstützen. Es ist unter der LGPL Open-Source Lizenz frei verfügbar und kann unter http://gepat.sourceforge.net heruntergeladen werden. N2 - The measurement of gene expression data is relevant to many areas of biology and medicine, in the study of treatments, diseases, and developmental stages. Microarrays can be used to measure the expression level of thousands of mRNAs at the same time, allowing insight into or comparison of different cellular conditions. The data derived out of microarray experiments is highly dimensional and noisy, and interpretation of the results can get tricky. Although programs for the statistical analysis of microarray data exist, most of them lack an integration of analysis results and biological interpretation. In this work GEPAT, Genome Expression Pathway Analysis Tool, was developed, offering an analysis of gene expression data under genomic, proteomic and metabolic context. GEPAT integrates statistical methods for data import and data analysis together with an biological interpretation for subset of genes or single genes measured on the chip. GEPAT imports various types of oligonucleotide and cDNA array data formats. Different normalization methods can be applied to the data, afterwards data annotation is performed. After import, GEPAT offers various statistical data analysis methods, as hierarchical, k-means and PCA clustering, a linear model based t-Test or chromosomal profile comparison. The results of the analysis can be interpreted by enrichment of biological terms, pathway analysis or interaction networks. Different biological databases are included, to give various informations for each probe on the chip. GEPAT offers no linear work flow, but allows the usage of any subset of probes and samples as start for a new data analysis or interpretation. GEPAT relies on established data analysis packages, offers a modular approach for an easy extension, and can be run on a computer grid to allow a large number of users. It is freely available under the LGPL open source license for academic and commercial users at http://gepat.sourceforge.net. KW - Microarray KW - Genexpression KW - Datenanalyse KW - Explorative Datenanalyse KW - microarray KW - gene expression KW - data analysis KW - explorative data analysis Y1 - 2007 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-25392 ER - TY - THES A1 - Ziegler, Katrin T1 - Implementierung von verbesserten Landoberflächenparametern und -prozessen in das hochaufgelöste Klimamodell REMO T1 - Implementation of improved land surface parameters and processes for the high-resolution climate model REMO N2 - Das Ziel dieser Arbeit war neue Eingangsdaten für die Landoberflächenbeschreibung des regionalen Klimamodells REMO zu finden und ins Modell zu integrieren, um die Vorhersagequalität des Modells zu verbessern. Die neuen Daten wurden so in das Modell eingebaut, dass die bisherigen Daten weiterhin als Option verfügbar sind. Dadurch kann überprüft werden, ob und in welchem Umfang sich die von jedem Klimamodell benötigten Rahmendaten auf Modellergebnisse auswirken. Im Zuge der Arbeit wurden viele unterschiedliche Daten und Methoden zur Generierung neuer Parameter miteinander verglichen, denn neben dem Ersetzen der konstanten Eingangswerte für verschiedene Oberflächenparameter und den damit verbundenen Änderungen wurden als zusätzliche Verbesserung auch Veränderungen an der Parametrisierung des Bodens speziell in Hinblick auf die Bodentemperaturen in REMO vorgenommen. Im Rahmen dieser Arbeit wurden die durch die verschiedenen Änderungen ausgelösten Auswirkungen für das CORDEX-Gebiet EUR-44 mit einer Auflösung von ca. 50km und für das in dem darin eingebetteten neu definierten Deutschlandgebiet GER-11 mit einer Auflösung von ca. 12km getestet sowie alle Änderungen anhand von verschiedenen Beobachtungsdatensätzen validiert. Die vorgenommenen Arbeiten gliederten sich in drei Hauptteile. Der erste Teil bestand in dem vom eigentlichen Klimamodell unabhängigen Vergleich der verschiedenen Eingangsdaten auf unterschiedlichen Auflösungen und deren Performanz in allen Teilen der Erde, wobei ein besonderer Fokus auf der Qualität in den späteren Modellgebieten lag. Unter Berücksichtigung der Faktoren, wie einer globalen Verfügbarkeit der Daten, einer verbesserten räumlichen Auflösung und einer kostenlosen Nutzung der Daten sowie verschiedener Validationsergebnissen von anderen Studien, wurden in dieser Arbeit vier neue Topographiedatensätze (SRTM, ALOS, TANDEM und ASTER) und drei neue Bodendatensätze (FAOn, Soilgrid und HWSD) für die Verwendung im Präprozess von REMO aufbereitet und miteinander sowie mit den bisher in REMO verwendeten Daten verglichen. Auf Grundlage dieser Vergleichsstudien schieden bei den Topographiedaten die verwendeten Datensatz-Versionen von SRTM, ALOS und TANDEM für die in dieser Arbeit durchgeführten REMO-Läufe aus. Bei den neuen Bodendatensätzen wurde ausgenutzt, dass diese verschiedenen Bodeneigenschaften für unterschiedliche Tiefen als Karten zur Verfügung stellen. In REMO wurden bisher alle benötigten Bodenparameter abhängig von fünf verschiedenen Bodentexturklassen und einer zusätzlichen Torfklasse ausgewiesen und als konstant über die gesamte Modellbodensäule (bis ca. 10m) angenommen. Im zweiten Teil wurden auf Basis der im ersten Teil ausgewählten neuen Datensätze und den neu verfügbaren Bodenvariablen verschiedene Sensitivitätsstudien über das Beispieljahr 2000 durchgeführt. Dabei wurden verschiedene neue Parametrisierungen für die bisher aus der Textur abgeleiteten Bodenvariablen und die Parametrisierung von weiteren hydrologischen und thermalen Bodeneigenschaften verglichen. Ferner wurde aufgrund der neuen nicht über die Tiefe konstanten Bodeneigenschaften eine neue numerische Methode zur Berechnung der Bodentemperaturen der fünf Schichten in REMO getestet, welche wiederum andere Anpassungen erforderte. Der Test und die Auswahl der verschiedenen Datensatz- und Parametrisierungsversionen auf die Modellperformanz wurde in drei Experimentpläne unterteilt. Im ersten Plan wurden die Auswirkungen der ausgewählten Topographie- und Bodendatensätze überprüft. Der zweite Plan behandelte die Unterschiede der verschiedenen Parametrisierungsarten der Bodenvariablen hinsichtlich der verwendeten Variablen zur Berechnung der Bodeneigenschaften, der über die Tiefe variablen oder konstanten Eigenschaften und der verwendeten Berechnungsmethode der Bodentemperaturänderungen. Durch die Erkenntnisse aus diesen beiden Experimentplänen, die für beide Untersuchungsgebiete durchgeführt wurden, ergaben sich im dritten Plan weitere Parametrisierungsänderungen. Alle Änderungen dieses dritten Experimentplans wurden sukzessiv getestet, sodass der paarweise Vergleich von zwei aufeinanderfolgenden Modellläufen die Auswirkungen der Neuerung im jeweils zweiten Lauf widerspiegelt. Der letzte Teil der Arbeit bestand aus der Analyse von fünf längeren Modellläufen (2000-2018), die zur Überprüfung der Ergebnisse aus den Sensitivitätsstudien sowie zur Einschätzung der Performanz in weiteren teilweise extremen atmosphärischen Bedingungen durchgeführt wurden. Hierfür wurden die bisherige Modellversion von REMO (id01) für die beiden Untersuchungsgebiete EUR-44 und GER-11 als Referenzläufe, zwei aufgrund der Vergleichsergebnisse von Experimentplan 3 selektierte Modellversionen (id06 und id15a für GER-11) sowie die finale Version (id18a für GER-11), die alle vorgenommenen Änderungen dieser Arbeit enthält, ausgewählt. Es stellte sich heraus, dass sowohl die neuen Topographiedaten als auch die neuen Bodendaten große Differenzen zu den bisherigen Daten in REMO haben. Zudem änderten sich die von diesen konstanten Eingangsdaten abgeleiteten Hilfsvariablen je nach verwendeter Parametrisierung sehr deutlich. Dies war besonders gut anhand der Bodenparameter zu erkennen. Sowohl die räumliche Verteilung als auch der Wertebereich der verschiedenen Modellversionen unterschieden sich stark. Eine Einschätzung der Qualität der resultierenden Parameter wurde jedoch dadurch erschwert, dass auch die verschiedenen zur Validierung herangezogenen Bodendatensätze für diese Parameter deutlich voneinander abweichen. Die finale Modellversion id18a ähnelte trotz der umfassenden Änderungen in den meisten Variablen den Ergebnissen der bisherigen REMO-Version. Je nach zeitlicher und räumlicher Aggregation sowie unterschiedlichen Regionen und Jahreszeiten wurden leichte Verbesserungen, aber auch leichte Verschlechterungen im Vergleich zu den klimatologischen Validationsdaten festgestellt. Größere Veränderungen im Vergleich zur bisherigen Modellversion konnten in den tieferen Bodenschichten aufgezeigt werden, welche allerdings aufgrund von fehlenden Validationsdaten nicht beurteilt werden konnten. Für alle 2m-Temperaturen konnte eine tendenzielle leichte Erwärmung im Vergleich zum bisherigen Modelllauf beobachtet werden, was sich einerseits negativ auf die ohnehin durchschnittlich zu hohe Minimumtemperatur, aber andererseits positiv auf die bisher zu niedrige Maximumtemperatur des Modells in den betrachteten Gebieten auswirkte. Im Niederschlagssignal und in den 10m-Windvariablen konnten keine signifikanten Änderungen nachgewiesen werden, obwohl die neue Topographie an manchen Stellen im Modellgebiet deutlich von der bisherigen abweicht. Des Weiteren variierte das Ranking der verschiedenen Modellversionen jeweils nach dem angewendeten Qualitätsindex. Um diese Ergebnisse besser einordnen zu können, muss berücksichtigt werden, dass die neuen Daten für Modellgebiete mit 50 bzw. 12km räumlicher Auflösung und der damit verbundenen hydrostatischen Modellversion getestet wurden. Zudem sind vor allem in Fall der Topographie die bisher enthaltenen GTOPO-Daten (1km Auflösung) für die Aggregation auf diese gröbere Modellauflösung geeignet. Die bisherigen Bodendaten stoßen jedoch mit 50km Auflösung bereits an ihre Grenzen. Zusätzlich ist zu beachten, dass nicht nur die Mittelwerte dieser Daten, sondern auch deren Subgrid-Variabilität als Variablen im Modell für verschiedene Parametrisierungen verwendet werden. Daher ist es essentiell, dass die Eingangsdaten eine deutlich höhere Auflösung bereitstellen als die zur Modellierung definierte Auflösung. Für lokale Klimasimulationen mit Auflösungen im niedrigen Kilometerbereich spielen auch die Vertikalbewegungen (nicht-hydrostatische Modellversion) eine wichtige Rolle, die stark von der Topographie sowie deren horizontaler und vertikaler Änderungsrate beeinflusst werden, was die in dieser Arbeit eingebauten wesentlich höher aufgelösten Daten für die zukünftige Weiterentwicklung von REMO wertvoll machen kann. N2 - The main aim of this work was to find new input data sets for the land surface description of the regional climate model REMO and to integrate them into the model in order to improve the predictive quality of the model. The new data sets have been incorporated into the model in such a way that the previous data are still available as an option for the model run. This allows to check whether and to what extent the boundary data required by each climate model have an impact on the model results. In this study comparisons of many different data sets and methods for generating new parameters are included. In addition to replacing the constant input values for different surface parameters and the associated changes, changes were also made for the parameterization of the soil, especially with regard to the soil temperatures in REMO. The effects of different changes which were made in this study were analysed for the CORDEX region EUR-44 with a resolution of 50km and for a newly defined German area GER-11 with a resolution of 12km. All changes were validated with different observational data sets. The work process was divided into three main parts. The first part was independent of the actual climate model and included the comparison of different input data sets at different resolutions and their performance in all parts of the world. Taking into account factors such as global availability of the data, improved spatial resolution and free use of the data, as well as various validation results from other studies, four new topography data sets (SRTM, ALOS, TANDEM and ASTER) and three new soil data sets (FAOn, Soilgrid and HWSD) were processed for the usage by REMO and compared with each other and with the data sets previously used in REMO. Based on these comparative studies of the topographical data sets the SRTM, ALOS and TANDEM data set versions were excluded from the further usage in REMO in this study. For the new soil data sets the fact that they provide different soil properties for different depths as maps has been taken advantage of. In the previous REMO versions, all required soil parameters so far have been determined depending on five different soil texture classes with an additional peat class and assumed to be constant over the entire model soil column (up to approximately 10m). In the second part, several sensitivity studies were tested for the year 2000 based on the new data sets selected in the first part of the analysis and on the new available soil variables. Different new parameterizations for soil variables previously derived from the soil texture now based on the sand, clay and organic content of the soil as well as new parameterizations of further hydrological and thermal properties of soil were compared. In addition, due to the new non-constant soil properties, a new numerical method for calculating the soil temperatures of the five layers in the model was tested, which in turn necessitated further adjustments. The testing and selection of the different data sets and parameterization versions for the model according to performance was divided into three experimental plans. In the first plan, the effects of the selected topography and soil data sets were examined. The second plan dealt with the differences between the different types of parameterization of the soil variables in terms of the variables used to calculate the properties, the properties variable or constant over depth, and the method used to calculate the changes in soil temperature. The findings of these two experimental plans, which were carried out for both study areas, led to further parameterization changes in the third plan. All changes in this third experimental plan were tested successively, so the pairwise comparison of two consecutive model runs reflects the impact of the innovation in the second run. The final part of the analysis consists of five longer model runs (2000-2018), which were carried out to review the results of the sensitivity studies and to assess the performance under other, sometimes extreme, atmospheric conditions. For this purpose, the previous model version of REMO (id01) for the two study areas (EUR-44 and GER-11) served as reference runs. Two new model versions (GER-11 of id06 and id15a) were selected on the basis of the comparison results of the third experimental plan and the final version (GER-11 of id18a) which contains all changes made in this work was also chosen for a detailed analysis. Taken together the results show that both the new topography data and the new soil data differ crucially from the previous data sets in REMO. In addition, the auxiliary variables derived from these constant input data change significantly depending on the parameterization used, especially for the soil parameters. Both the spatial distribution and the range of values of the different model versions differ greatly. However, a quality assessment of the parameterization is difficult because different soil data sets used for the validation of the parameters also differ significantly. The final model version (id18a) is similar to the results of the previous REMO version in most variables, despite the extensive changes of the input data and parametrizations. Depending on temporal and spatial aggregation as well as different regions and seasons, slight improvements have been observed, but also slight deterioration compared to the climatological validation data. In the deeper soil layers larger changes could be identified compared to the previous model version, which could not be assessed due to a lack of validation data. Overall, there was also a slight warming of all 2m temperatures compared to the previous model run, which on the one hand has a negative effect on the already too high minimum temperature, but on the other hand has a positive effect on the previously too low maximum temperature of the model in the study areas. No significant changes could be detected in the precipitation signal and in the 10m wind variables, although the new topography differs significantly from the previous topography at some points in the test area. Furthermore, the ranking of the different model versions varied according to the quality index applied. To evaluate the results it has to be considered that the new data were tested for model regions with 50 and 12km spatial resolution and the associated hydrostatic model version. The so far already included data are suitable for aggregation to this coarser model resolution, especially in the case of topography (GTOPO with 1km resolution). However, the previous soil data already reach their limits with 50km resolution. In addition, it should be noted that not only the mean values of these data, but also their subgrid variability are used as variables in the model for different parameterizations. Therefore, it is essential that the input data provide a significantly higher resolution than the resolution defined for modeling. Vertical fluxes (non-hydrostatic model version) play an important role in local climate simulations with resolutions in the low kilometre range, which are strongly influenced by the topography and its horizontal and vertical change rate, which may make the much higher resolution data incorporated in this work valuable for the future development of REMO. KW - Klimamodell KW - Datenanalyse KW - Modellierung KW - Topographie KW - Klimamodellierung KW - REMO KW - Vergleich verschiedener Modellparameterisierungen KW - Bodenparameter KW - Topographiedaten KW - parametrizations Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-261285 ER -