TY - JOUR A1 - Müller, Konstantin A1 - Leppich, Robert A1 - Geiß, Christian A1 - Borst, Vanessa A1 - Pelizari, Patrick Aravena A1 - Kounev, Samuel A1 - Taubenböck, Hannes T1 - Deep neural network regression for normalized digital surface model generation with Sentinel-2 imagery JF - IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing N2 - In recent history, normalized digital surface models (nDSMs) have been constantly gaining importance as a means to solve large-scale geographic problems. High-resolution surface models are precious, as they can provide detailed information for a specific area. However, measurements with a high resolution are time consuming and costly. Only a few approaches exist to create high-resolution nDSMs for extensive areas. This article explores approaches to extract high-resolution nDSMs from low-resolution Sentinel-2 data, allowing us to derive large-scale models. We thereby utilize the advantages of Sentinel 2 being open access, having global coverage, and providing steady updates through a high repetition rate. Several deep learning models are trained to overcome the gap in producing high-resolution surface maps from low-resolution input data. With U-Net as a base architecture, we extend the capabilities of our model by integrating tailored multiscale encoders with differently sized kernels in the convolution as well as conformed self-attention inside the skip connection gates. Using pixelwise regression, our U-Net base models can achieve a mean height error of approximately 2 m. Moreover, through our enhancements to the model architecture, we reduce the model error by more than 7%. KW - Deep learning KW - multiscale encoder KW - sentinel KW - surface model Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-349424 SN - 1939-1404 VL - 16 ER - TY - JOUR A1 - Steininger, Michael A1 - Abel, Daniel A1 - Ziegler, Katrin A1 - Krause, Anna A1 - Paeth, Heiko A1 - Hotho, Andreas T1 - ConvMOS: climate model output statistics with deep learning JF - Data Mining and Knowledge Discovery N2 - Climate models are the tool of choice for scientists researching climate change. Like all models they suffer from errors, particularly systematic and location-specific representation errors. One way to reduce these errors is model output statistics (MOS) where the model output is fitted to observational data with machine learning. In this work, we assess the use of convolutional Deep Learning climate MOS approaches and present the ConvMOS architecture which is specifically designed based on the observation that there are systematic and location-specific errors in the precipitation estimates of climate models. We apply ConvMOS models to the simulated precipitation of the regional climate model REMO, showing that a combination of per-location model parameters for reducing location-specific errors and global model parameters for reducing systematic errors is indeed beneficial for MOS performance. We find that ConvMOS models can reduce errors considerably and perform significantly better than three commonly used MOS approaches and plain ResNet and U-Net models in most cases. Our results show that non-linear MOS models underestimate the number of extreme precipitation events, which we alleviate by training models specialized towards extreme precipitation events with the imbalanced regression method DenseLoss. While we consider climate MOS, we argue that aspects of ConvMOS may also be beneficial in other domains with geospatial data, such as air pollution modeling or weather forecasts. KW - Klima KW - Modell KW - Deep learning KW - Neuronales Netz KW - climate KW - neural networks KW - model output statistics Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-324213 SN - 1384-5810 VL - 37 IS - 1 ER - TY - THES A1 - Philipp, Marius Balthasar T1 - Quantifying the Effects of Permafrost Degradation in Arctic Coastal Environments via Satellite Earth Observation T1 - Quantifizierung der Effekte von Permafrost Degradation in Arktischen Küstenregionen mittels Satelliten-gestützter Erdbeobachtung N2 - Permafrost degradation is observed all over the world as a consequence of climate change and the associated Arctic amplification, which has severe implications for the environment. Landslides, increased rates of surface deformation, rising likelihood of infrastructure damage, amplified coastal erosion rates, and the potential turnover of permafrost from a carbon sink to a carbon source are thereby exemplary implications linked to the thawing of frozen ground material. In this context, satellite earth observation is a potent tool for the identification and continuous monitoring of relevant processes and features on a cheap, long-term, spatially explicit, and operational basis as well as up to a circumpolar scale. A total of 325 articles published in 30 different international journals during the past two decades were investigated on the basis of studied environmental foci, remote sensing platforms, sensor combinations, applied spatio-temporal resolutions, and study locations in an extensive review on past achievements, current trends, as well as future potentials and challenges of satellite earth observation for permafrost related analyses. The development of analysed environmental subjects, utilized sensors and platforms, and the number of annually published articles over time are addressed in detail. Studies linked to atmospheric features and processes, such as the release of greenhouse gas emissions, appear to be strongly under-represented. Investigations on the spatial distribution of study locations revealed distinct study clusters across the Arctic. At the same time, large sections of the continuous permafrost domain are only poorly covered and remain to be investigated in detail. A general trend towards increasing attention in satellite earth observation of permafrost and related processes and features was observed. The overall amount of published articles hereby more than doubled since the year 2015. New sources of satellite data, such as the Sentinel satellites and the Methane Remote Sensing LiDAR Mission (Merlin), as well as novel methodological approaches, such as data fusion and deep learning, will thereby likely improve our understanding of the thermal state and distribution of permafrost, and the effects of its degradation. Furthermore, cloud-based big data processing platforms (e.g. Google Earth Engine (GEE)) will further enable sophisticated and long-term analyses on increasingly larger scales and at high spatial resolutions. In this thesis, a specific focus was put on Arctic permafrost coasts, which feature increasing vulnerability to environmental parameters, such as the thawing of frozen ground, and are therefore associated with amplified erosion rates. In particular, a novel monitoring framework for quantifying Arctic coastal erosion rates within the permafrost domain at high spatial resolution and on a circum-Arctic scale is presented within this thesis. Challenging illumination conditions and frequent cloud cover restrict the applicability of optical satellite imagery in Arctic regions. In order to overcome these limitations, Synthetic Aperture RADAR (SAR) data derived from Sentinel-1 (S1), which is largely independent from sun illumination and weather conditions, was utilized. Annual SAR composites covering the months June–September were combined with a Deep Learning (DL) framework and a Change Vector Analysis (CVA) approach to generate both a high-quality and circum-Arctic coastline product as well as a coastal change product that highlights areas of erosion and build-up. Annual composites in the form of standard deviation (sd) and median backscatter were computed and used as inputs for both the DL framework and the CVA coastal change quantification. The final DL-based coastline product covered a total of 161,600 km of Arctic coastline and featured a median accuracy of ±6.3 m to the manually digitized reference data. Annual coastal change quantification between 2017–2021 indicated erosion rates of up to 67 m per year for some areas based on 400 m coastal segments. In total, 12.24% of the investigated coastline featured an average erosion rate of 3.8 m per year, which corresponds to 17.83 km2 of annually eroded land area. Multiple quality layers associated to both products, the generated DL-coastline and the coastal change rates, are provided on a pixel basis to further assess the accuracy and applicability of the proposed data, methods, and products. Lastly, the extracted circum-Arctic erosion rates were utilized as a basis in an experimental framework for estimating the amount of permafrost and carbon loss as a result of eroding permafrost coastlines. Information on permafrost fraction, Active Layer Thickness (ALT), soil carbon content, and surface elevation were thereby combined with the aforementioned erosion rates. While the proposed experimental framework provides a valuable outline for quantifying the volume loss of frozen ground and carbon release, extensive validation of the utilized environmental products and resulting volume loss numbers based on 200 m segments are necessary. Furthermore, data of higher spatial resolution and information of carbon content for deeper soil depths are required for more accurate estimates. N2 - Als Folge des Klimawandels und der damit verbundenen „Arctic Amplification“ wird weltweit eine Degradation des Dauerfrostbodens (Permafrost) beobachtet, welche schwerwiegende Auswirkungen auf die Umwelt hat. Erdrutsche, erhöhte Oberflächen- verformungsraten, eine zunehmende Wahrscheinlichkeit von Infrastrukturschäden, verstärkte Küstenerosionsraten und die potenzielle Umwandlung von Permafrost von einer Kohlenstoffsenke in eine Kohlenstoffquelle sind dabei beispielhafte Auswirkun- gen im Zusammenhang mit dem Auftauen von gefrorenem Bodenmaterial. In diesem Kontext ist die Satelliten-gestützte Erdbeobachtung ein wirkmächtiges Werkzeug zur Identifizierung und kontinuierlichen Überwachung relevanter Prozesse und Merkmale auf einer kostengünstigen, langfristigen, räumlich expliziten und operativen Basis und auf einem zirkumpolaren Maßstab. Insgesamt 325 Artikel, die in den letzten zwei Jahrzehnten in 30 verschiedenen internationalen Zeitschriften veröffentlicht wurden, wurden auf Basis der adressierten Umweltschwerpunkte, Fernerkundungsplattformen, Sensorkombinationen, angewand- ten raum-zeitlichen Auflösungen und den Studienorten in einem umfassenden Überblick über vergangene Errungenschaften und aktuelle Trends untersucht. Zusätzlich wur- den zukünftige Potenziale und Herausforderungen der Satelliten-Erdbeobachtung für Permafrost-bezogene Analysen diskutiert. Auf die zeitliche Entwicklung der un- tersuchten Umweltthemen, eingesetzten Sensoren und Satelliten-Plattformen sowie die Zahl der jährlich erscheinenden Artikel wurde detailliert eingegangen. Studien zu atmosphärischen Eigenschaften und Prozessen, wie etwa der Freisetzung von Treibhaus- gasemissionen, waren stark unterrepräsentiert. Deutliche geografische Schlüssel-Gebiete, auf welche sich der Großteil der Studien konzentrierte, konnten in Untersuchungen zur räumlichen Verteilung der Studienorte identifiziert werden. Gleichzeitig sind große Teile des kontinuierlichen Permafrost-Gebiets nur spärlich abgedeckt und müssen noch im Detail untersucht werden. Es wurde ein allgemeiner Trend zu einer zunehmenden Aufmerksamkeit bezüglich der Satelliten-gestützten Erdbeobachtung von Permafrost und verwandten Prozessen und Merkmalen beobachtet. Die Gesamtzahl der veröf- fentlichten Artikel hat sich dabei seit dem Jahr 2015 mehr als verdoppelt. Neue Quellen für Satellitendaten, wie beispielweise die Sentinel-Satelliten und die Methane Remote Sensing LiDAR Mission (Merlin), sowie neuartige methodische Ansätze, wie Datenfusion und Deep Learning, werden dabei voraussichtlich unser Verständnis bzgl. des thermischen Zustands und der Verteilung von Permafrost-Vorkommen sowie die Auswirkungen seines Auftauens verbessern. Darüber hinaus werden Cloud-basierte Big-Data-Verarbeitungsplattformen (z.B. Google Earth Engine (GEE)) anspruchsvolle und langfristige Analysen in immer größeren Maßstäben und mit hoher räumlicher Auflösung erleichtern. In dieser Arbeit wurde ein besonderer Fokus auf arktische Permafrost-Küsten gelegt, die eine zunehmende Vulnerabilität gegenüber Umweltparametern wie dem Auftauen von gefrorenem Boden aufweisen und daher von verstärkten Erosionsraten betroffen sind. Ein neuartiger Ansatz zur Quantifizierung der arktischen Küstene- rosion innerhalb des Permafrost-Gebiets mit hoher räumlicher Auflösung und auf zirkum-arktischem Maßstab wird in dieser Dissertation präsentiert. Schwierige Be- leuchtungsbedingungen und häufige Bewölkung schränken die Anwendbarkeit optischer Satellitenbilder in arktischen Regionen ein. Um diese Einschränkungen zu überwinden, wurden Synthetic Aperture RADAR (SAR) Daten von Sentinel-1 (S1) verwendet, die weitgehend unabhängig von Sonneneinstrahlung und Wetterbedingungen sind. Jährli- che SAR-Komposite, welche die Monate Juni bis September abdecken, wurden mit einem Deep Learning (DL)-Ansatz und einer Change Vector Analysis (CVA)-Methode kombiniert, um sowohl ein qualitativ hochwertiges und zirkum-arktisches Küstenli- nienprodukt als auch ein Produkt für die Änderungsraten (Erosion und küstennahe Aggregation von Sedimenten) der Küste zu generieren. Jährliche Satelliten-Komposite in Form von der Standardabweichung (sd) und des Medians der SAR Rückstreuung wurden hierbei berechnet und als Eingabedaten sowohl für den DL-Ansatz als auch für die Quantifizierung der CVA-basierten Küstenänderung verwendet. Das endgül- tige DL-basierte Küstenlinienprodukt deckt insgesamt 161.600 km der arktischen Küstenlinie ab und wies eine Median-Abweichung von ±6,3 m gegenüber den ma- nuell digitalisierten Referenzdaten auf. Im Zuge der Quantifizierung von jährlichen Küstenveränderungen zwischen 2017 und 2021 konnten Erosionsraten von bis zu 67 m pro Jahr und basierend auf 400 m Küstenabschnitten identifiziert werden. Insgesamt wiesen 12,24% der untersuchten Küstenlinie eine durchschnittliche Erosionsrate von 3,8 m pro Jahr auf, was einer jährlichen erodierten Landfläche von 17,83 km2 entspricht. Mehrere Qualitäts-Datensätze, die beiden Produkten zugeordnet sind, wurden auf Pixelbasis bereitgestellt, um die Genauigkeit und Anwendbarkeit der präsentierten Daten, Methoden und Produkte weiter einordnen zu können. Darüber hinaus wurden die extrahierten zirkum-arktischen Erosionsraten als Grund- lage in einem experimentellen Ansatz verwendet, um die Menge an Permafrost-Verlust und Kohlenstofffreistzung als Konsequenz der erodierten Permafrost-Küsten abzu- schätzen. Dabei wurden Informationen zu Permafrost-Anteil, Active Layer Thickness (ALT), Höhenmodellen und der Menge an im Boden gespeichertem Kohlenstoff mit den oben genannten Erosionsraten kombiniert. Während der präsentierte experimentelle Ansatz einen wertvollen Ausgangspunkt für die Quantifizierung des Volumenverlusts von gefrorenem Boden und der Kohlenstofffreisetzung darstellt, ist eine umfassende Validierung der verwendeten Umweltprodukte und der resultierenden Volumenzah- len erforderlich. Zusätzlich werden für genauere Abschätzungen Daten mit höherer räumlicher Auflösung und Informationen zum Kohlenstoffgehalt für tiefere Bodentiefen benötigt. KW - Dauerfrostboden KW - Synthetische Apertur KW - Deep learning KW - Erosion KW - Satellit KW - Synthetic Aperture RADAR KW - Circumpolar KW - Arctic KW - Permafrost KW - Satellite Earth Observation KW - Change Vector Analysis Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-345634 ER - TY - THES A1 - Steininger, Michael T1 - Deep Learning for Geospatial Environmental Regression T1 - Deep Learning für Regressionsmodelle mit georäumlichen Umweltdaten N2 - Environmental issues have emerged especially since humans burned fossil fuels, which led to air pollution and climate change that harm the environment. These issues’ substantial consequences evoked strong efforts towards assessing the state of our environment. Various environmental machine learning (ML) tasks aid these efforts. These tasks concern environmental data but are common ML tasks otherwise, i.e., datasets are split (training, validatition, test), hyperparameters are optimized on validation data, and test set metrics measure a model’s generalizability. This work focuses on the following environmental ML tasks: Regarding air pollution, land use regression (LUR) estimates air pollutant concentrations at locations where no measurements are available based on measured locations and each location’s land use (e.g., industry, streets). For LUR, this work uses data from London (modeled) and Zurich (measured). Concerning climate change, a common ML task is model output statistics (MOS), where a climate model’s output for a study area is altered to better fit Earth observations and provide more accurate climate data. This work uses the regional climate model (RCM) REMO and Earth observations from the E-OBS dataset for MOS. Another task regarding climate is grain size distribution interpolation where soil properties at locations without measurements are estimated based on the few measured locations. This can provide climate models with soil information, that is important for hydrology. For this task, data from Lower Franconia is used. Such environmental ML tasks commonly have a number of properties: (i) geospatiality, i.e., their data refers to locations relative to the Earth’s surface. (ii) The environmental variables to estimate or predict are usually continuous. (iii) Data can be imbalanced due to relatively rare extreme events (e.g., extreme precipitation). (iv) Multiple related potential target variables can be available per location, since measurement devices often contain different sensors. (v) Labels are spatially often only sparsely available since conducting measurements at all locations of interest is usually infeasible. These properties present challenges but also opportunities when designing ML methods for such tasks. In the past, environmental ML tasks have been tackled with conventional ML methods, such as linear regression or random forests (RFs). However, the field of ML has made tremendous leaps beyond these classic models through deep learning (DL). In DL, models use multiple layers of neurons, producing increasingly higher-level feature representations with growing layer depth. DL has made previously infeasible ML tasks feasible, improved the performance for many tasks in comparison to existing ML models significantly, and eliminated the need for manual feature engineering in some domains due to its ability to learn features from raw data. To harness these advantages for environmental domains it is promising to develop novel DL methods for environmental ML tasks. This thesis presents methods for dealing with special challenges and exploiting opportunities inherent to environmental ML tasks in conjunction with DL. To this end, the proposed methods explore the following techniques: (i) Convolutions as in convolutional neural networks (CNNs) to exploit reoccurring spatial patterns in geospatial data. (ii) Posing the problems as regression tasks to estimate the continuous variables. (iii) Density-based weighting to improve estimation performance for rare and extreme events. (iv) Multi-task learning to make use of multiple related target variables. (v) Semi–supervised learning to cope with label sparsity. Using these techniques, this thesis considers four research questions: (i) Can air pollution be estimated without manual feature engineering? This is answered positively by the introduction of the CNN-based LUR model MapLUR as well as the off-the-shelf LUR solution OpenLUR. (ii) Can colocated pollution data improve spatial air pollution models? Multi-task learning for LUR is developed for this, showing potential for improvements with colocated data. (iii) Can DL models improve the quality of climate model outputs? The proposed DL climate MOS architecture ConvMOS demonstrates this. Additionally, semi-supervised training of multilayer perceptrons (MLPs) for grain size distribution interpolation is presented, which can provide improved input data. (iv) Can DL models be taught to better estimate climate extremes? To this end, density-based weighting for imbalanced regression (DenseLoss) is proposed and applied to the DL architecture ConvMOS, improving climate extremes estimation. These methods show how especially DL techniques can be developed for environmental ML tasks with their special characteristics in mind. This allows for better models than previously possible with conventional ML, leading to more accurate assessment and better understanding of the state of our environment. N2 - Umweltprobleme sind vor allem seit der Verbrennung fossiler Brennstoffe durch den Menschen entstanden. Dies hat zu Luftverschmutzung und Klimawandel geführt, was die Umwelt schädigt. Die schwerwiegenden Folgen dieser Probleme haben starke Bestrebungen ausgelöst, den Zustand unserer Umwelt zu untersuchen. Verschiedene Ansätze des maschinellen Lernens (ML) im Umweltbereich unterstützen diese Bestrebungen. Bei diesen Aufgaben handelt es sich um gewöhnliche ML-Aufgaben, z. B. werden die Datensätze aufgeteilt (Training, Validation, Test), Hyperparameter werden auf den Validierungsdaten optimiert, und die Metriken auf den Testdaten messen die Generalisierungsfähigkeit eines Modells, aber sie befassen sich mit Umweltdaten. Diese Arbeit konzentriert sich auf die folgenden Umwelt-ML-Aufgaben: In Bezug auf Luftverschmutzung schätzt Land Use Regression (LUR) die Luftschadstoffkonzentration an Orten, an denen keine Messungen verfügbar sind auf Basis von gemessenen Orten und der Landnutzung (z. B. Industrie, Straßen) der Orte. Für LUR werden in dieser Arbeit Daten aus London (modelliert) und Zürich (gemessen) verwendet. Im Zusammenhang mit dem Klimawandel ist eine häufige ML-Aufgabe Model Output Statistics (MOS), bei der die Ausgaben eines Klimamodells so angepasst werden, dass sie mit Erdbeobachtungen besser übereinstimmen. Dadurch werden genauere Klimadaten erzeugt. Diese Arbeit verwendet das regionale Klimamodell REMO und Erdbeobachtungen aus dem E-OBS-Datensatz für MOS. Eine weitere Aufgabe im Zusammenhang mit dem Klima ist die Interpolation von Korngrößenverteilungen. Hierbei werden Bodeneigenschaften an Orten ohne Messungen auf Basis von wenigen gemessenen Orten geschätzt, um Klimamodelle mit Bodeninformationen zu versorgen, die für die Hydrologie wichtig sind. Für diese Aufgabe werden in dieser Arbeit Bodenmessungen aus Unterfranken herangezogen. Solche Umwelt-ML-Aufgaben haben oft eine Reihe von Eigenschaften: (i) Georäumlichkeit, d. h. ihre Daten beziehen sich auf Standorte relativ zur Erdoberfläche. (ii) Die zu schätzenden oder vorherzusagenden Umweltvariablen sind normalerweise kontinuierlich. (iii) Daten können unbalanciert sein, was auf relativ seltene Extremereignisse (z. B. extreme Niederschläge) zurückzuführen ist. (iv) Pro Standort können mehrere verwandte potenzielle Zielvariablen verfügbar sein, da Messgeräte oft verschiedene Sensoren enthalten. (v) Zielwerte sind räumlich oft nur spärlich vorhanden, da die Durchführung von Messungen an allen gewünschten Orten in der Regel nicht möglich ist. Diese Eigenschaften stellen eine Herausforderung, aber auch eine Chance bei der Entwicklung von ML-Methoden für derlei Aufgaben dar. In der Vergangenheit wurden ML-Aufgaben im Umweltbereich mit konventionellen ML-Methoden angegangen, wie z. B. lineare Regression oder Random Forests (RFs). In den letzten Jahren hat der Bereich ML jedoch durch Deep Learning (DL) enorme Fortschritte über diese klassischen Modelle hinaus gemacht. Bei DL verwenden die Modelle mehrere Schichten von Neuronen, die mit zunehmender Schichtungstiefe immer abstraktere Merkmalsdarstellungen erzeugen. DL hat zuvor undurchführbare ML-Aufgaben realisierbar gemacht, die Leistung für viele Aufgaben im Vergleich zu bestehenden ML-Modellen erheblich verbessert und die Notwendigkeit für manuelles Feature-Engineering in einigen Bereichen aufgrund seiner Fähigkeit, Features aus Rohdaten zu lernen, eliminiert. Um diese Vorteile für ML-Aufgaben in der Umwelt nutzbar zu machen, ist es vielversprechend, geeignete DL-Methoden für diesen Bereich zu entwickeln. In dieser Arbeit werden Methoden zur Bewältigung der besonderen Herausforderungen und zur Nutzung der Möglichkeiten von Umwelt-ML-Aufgaben in Verbindung mit DL vorgestellt. Zu diesem Zweck werden in den vorgeschlagenen Methoden die folgenden Techniken untersucht: (i) Faltungen wie in Convolutional Neural Networks (CNNs), um wiederkehrende räumliche Muster in Geodaten zu nutzen. (ii) Probleme als Regressionsaufgaben stellen, um die kontinuierlichen Variablen zu schätzen. (iii) Dichtebasierte Gewichtung zur Verbesserung der Schätzungen bei seltenen und extremen Ereignissen. (iv) Multi-Task-Lernen, um mehrere verwandte Zielvariablen zu nutzen. (v) Halbüber- wachtes Lernen, um auch mit wenigen bekannten Zielwerten zurechtzukommen. Mithilfe dieser Techniken werden in der Arbeit vier Forschungsfragen untersucht: (i) Kann Luftverschmutzung ohne manuelles Feature Engineering geschätzt werden? Dies wird durch die Einführung des CNN-basierten LUR-Modells MapLUR sowie der automatisierten LUR–Lösung OpenLUR positiv beantwortet. (ii) Können kolokalisierte Verschmutzungsdaten räumliche Luftverschmutzungsmodelle verbessern? Hierfür wird Multi-Task-Learning für LUR entwickelt, das Potenzial für Verbesserungen mit kolokalisierten Daten zeigt. (iii) Können DL-Modelle die Qualität der Ausgaben von Klimamodellen verbessern? Die vorgeschlagene DL-MOS-Architektur ConvMOS demonstriert das. Zusätzlich wird halbüberwachtes Training von Multilayer Perceptrons (MLPs) für die Interpolation von Korngrößenverteilungen vorgestellt, das verbesserte Eingabedaten liefern kann. (iv) Kann man DL-Modellen beibringen, Klimaextreme besser abzuschätzen? Zu diesem Zweck wird eine dichtebasierte Gewichtung für unbalancierte Regression (DenseLoss) vorgeschlagen und auf die DL-Architektur ConvMOS angewendet, um die Schätzung von Klimaextremen zu verbessern. Diese Methoden zeigen, wie speziell DL-Techniken für Umwelt-ML-Aufgaben unter Berücksichtigung ihrer besonderen Eigenschaften entwickelt werden können. Dies ermöglicht bessere Modelle als konventionelles ML bisher erlaubt hat, was zu einer genaueren Bewertung und einem besseren Verständnis des Zustands unserer Umwelt führt. KW - Deep learning KW - Modellierung KW - Umwelt KW - Geospatial KW - Environmental KW - Regression KW - Neuronales Netz KW - Maschinelles Lernen KW - Geoinformationssystem Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-313121 ER - TY - THES A1 - Somody, Joseph Christian Campbell T1 - Leveraging deep learning for identification and structural determination of novel protein complexes from \(in\) \(situ\) electron cryotomography of \(Mycoplasma\) \(pneumoniae\) T1 - Tiefenlernen als Werkzeug zur Identifizierung und Strukturbestimmung neuer Proteinkomplexe aus der \(in\)-\(situ\)-Elektronenkryotomographie von \(Mycoplasma\) \(pneumoniae\) N2 - The holy grail of structural biology is to study a protein in situ, and this goal has been fast approaching since the resolution revolution and the achievement of atomic resolution. A cell's interior is not a dilute environment, and proteins have evolved to fold and function as needed in that environment; as such, an investigation of a cellular component should ideally include the full complexity of the cellular environment. Imaging whole cells in three dimensions using electron cryotomography is the best method to accomplish this goal, but it comes with a limitation on sample thickness and produces noisy data unamenable to direct analysis. This thesis establishes a novel workflow to systematically analyse whole-cell electron cryotomography data in three dimensions and to find and identify instances of protein complexes in the data to set up a determination of their structure and identity for success. Mycoplasma pneumoniae is a very small parasitic bacterium with fewer than 700 protein-coding genes, is thin enough and small enough to be imaged in large quantities by electron cryotomography, and can grow directly on the grids used for imaging, making it ideal for exploratory studies in structural proteomics. As part of the workflow, a methodology for training deep-learning-based particle-picking models is established. As a proof of principle, a dataset of whole-cell Mycoplasma pneumoniae tomograms is used with this workflow to characterize a novel membrane-associated complex observed in the data. Ultimately, 25431 such particles are picked from 353 tomograms and refined to a density map with a resolution of 11 Å. Making good use of orthogonal datasets to filter search space and verify results, structures were predicted for candidate proteins and checked for suitable fit in the density map. In the end, with this approach, nine proteins were found to be part of the complex, which appears to be associated with chaperone activity and interact with translocon machinery. Visual proteomics refers to the ultimate potential of in situ electron cryotomography: the comprehensive interpretation of tomograms. The workflow presented here is demonstrated to help in reaching that potential. N2 - Der heilige Gral der Strukturbiologie ist die Untersuchung eines Proteins in situ, und dieses Ziel ist seit der Auflösungsrevolution und dem Erreichen der atomaren Auflösung in greifbare Nähe gerückt. Das Innere einer Zelle ist keine verdünnte Umgebung, und Proteine haben sich so entwickelt, dass sie sich falten und so funktionieren, wie es in dieser Umgebung erforderlich ist; daher sollte die Untersuchung einer zellulären Komponente idealerweise die gesamte Komplexität der zellulären Umgebung umfassen. Die Abbildung ganzer Zellen in drei Dimensionen mit Hilfe der Elektronenkryotomographie ist die beste Methode, um dieses Ziel zu erreichen, aber sie ist mit einer Beschränkung der Probendicke verbunden und erzeugt verrauschte Daten, die sich nicht für eine direkte Analyse eignen. In dieser Dissertation wird ein neuartiger Workflow zur systematischen dreidimensionalen Analyse von Ganzzell-Elektronenkryotomographiedaten und zur Auffindung und Identifizierung von Proteinkomplexen in diesen Daten entwickelt, um eine erfolgreiche Bestimmung ihrer Struktur und Identität zu ermöglichen. Mycoplasma pneumoniae ist ein sehr kleines parasitäres Bakterium mit weniger als 700 proteinkodierenden Genen. Es ist dünn und klein genug, um in grossen Mengen durch Elektronenkryotomographie abgebildet zu werden, und kann direkt auf den für die Abbildung verwendeten Gittern wachsen, was es ideal für Sondierungsstudien in der strukturellen Proteomik macht. Als Teil des Workflows wird eine Methodik für das Training von Deep-Learning-basierten Partikelpicken-Modellen entwickelt. Als Proof-of-Principle wird ein Dataset von Ganzzell-Tomogrammen von Mycoplasma pneumoniae mit diesem Workflow verwendet, um einen neuartigen membranassoziierten Komplex zu charakterisieren, der in den Daten beobachtet wurde. Insgesamt wurden 25431 solcher Partikel aus 353 Tomogrammen gepickt und zu einer Dichtekarte mit einer Auflösung von 11 Å verfeinert. Unter Verwendung orthogonaler Datensätze zur Filterung des Suchraums und zur Überprüfung der Ergebnisse wurden Strukturen für Protein-Kandidaten vorhergesagt und auf ihre Eignung für die Dichtekarte überprüft. Letztendlich wurden mit diesem Ansatz neun Proteine als Bestandteile des Komplexes gefunden, der offenbar mit der Chaperonaktivität in Verbindung steht und mit der Translocon-Maschinerie interagiert. Das ultimative Potenzial der In-situ-Elektronenkryotomographie – die umfassende Interpretation von Tomogrammen – wird als visuelle Proteomik bezeichnet. Der hier vorgestellte Workflow soll dabei helfen, dieses Potenzial auszuschöpfen. KW - Kryoelektronenmikroskopie KW - Tomografie KW - Mycoplasma pneumoniae KW - Deep learning KW - cryo-EM KW - cryo-ET KW - tomography KW - mycoplasma KW - pneumoniae KW - deep learning KW - particle picking KW - membrane protein KW - visual proteomics Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-313447 ER -