TY  - THES
A1  - Reinermann, Sophie
T1  - Earth Observation Time Series for Grassland Management Analyses – Development and large-scale Application of a Framework to detect Grassland Mowing Events in Germany
T1  - Erdbeobachtungszeitserien zur Analyse der Grünlandbewirtschaftung – Entwicklung und großflächige Anwendung einer Prozessierungsarchitektur zur automatisierten Detektion von Grünlandmahden
N2  - Grasslands shape many landscapes of the earth as they cover about one-third of its surface. They are home and provide livelihood for billions of people and are mainly used as source of forage for animals. However, grasslands fulfill many additional ecosystem functions next to fodder production, such as storage of carbon, water filtration, provision of habitats and cultural values. They play a role in climate change (mitigation) and in preserving biodiversity and ecosystem functions on a global scale. The degree to what these ecosystem functions are present within grassland ecosystems is largely determined by the management. Individual management practices and the use intensity influence the species composition as well as functions, like carbon storage, while higher use intensities (e.g. high mowing frequencies) usually show a negative impact. Especially in Central European countries, like in Germany, the determining influence of grassland management on its physiognomy and ecosystem functions leads to a large variability and small-scale alternations of grassland parcels. Large-scale information on the management and use intensity of grasslands is not available. Consequently, estimations of grassland ecosystem functions are challenging which, however, would be required for large-scale assessments of the status of grassland ecosystems and optimized management plans for the future. The topic of this thesis tackles this gap by investigating the major grassland management practice in Germany, which is mowing, for multiple years, in high spatial resolution
and on a national scale.
Earth Observation (EO) has the advantage of providing information of the earth’s surface on multi-temporal time steps. An extensive literature review on the use of EO for grassland management and production analyses, which was part of this thesis, showed that in particular research on grasslands consisting of small parcels with a large variety of management and use intensity, like common in Central Europe, is underrepresented. Especially
the launch of the Sentinel satellites in the recent past now enables the analyses of such grasslands due to their high spatial and temporal resolution. The literature review specifically on the investigation of grassland mowing events revealed that most previous studies focused on small study areas, were exploratory, only used one sensor type and/or lacked a reference data set with a complete range of management options.
Within this thesis a novel framework to detect grassland mowing events over large areas is presented which was applied and validated for the entire area of Germany for multiple years (2018–2021). The potential of both sensor types, optical (Sentinel-2) and Synthetic Aperture Radar (SAR) (Sentinel-1) was investigated regarding grassland mowing event detection. Eight EO parameters were investigated, namely the Enhanced Vegetation Index (EVI), the backscatter intensity and the interferometric (InSAR) temporal coherence for both available polarization modes (VV and VH), and the polarimetric (PolSAR) decomposition parameters Entropy, K0 and K1. An extensive reference data set was generated based on daily images of webcams distributed in Germany which resulted in mowing information
for grasslands with the entire possible range of mowing frequencies – from one to six in Germany – and in 1475 reference mowing events for the four years of interest.
For the first time a observation-driven mowing detection approach including data from Sentinel-2 and Sentinel-1 and combining the two was developed, applied and validated on large scale. Based on a subset of the reference data (13 grassland parcels with 44 mowing events) from 2019 the EO parameters were investigated and the detection algorithm
developed and parameterized. This analysis showed that a threshold-based change detection approach based on EVI captured grassland mowing events best, which only failed during periods of clouds. All SAR-based parameters showed a less consistent behavior to mowing events, with PolSAR Entropy and InSAR Coherence VH, however, revealing the
highest potential among them. A second, combined approach based on EVI and a SARbased parameter was developed and tested for PolSAR Entropy and InSAR VH. To avoid additional false positive detections during periods in which mowing events are anyhow reliably detected using optical data, the SAR-based mowing detection was only initiated
during long gaps within the optical time series (< 25 days). Application and validation of
these approaches in a focus region revealed that only using EVI leads to the highest accuracies (F1-Score = 0.65) as combining this approach with SAR-based detection led to a strong increase in falsely detected mowing events resulting in a decrease of accuracies (EVI + PolSAR ENT F1-Score = 0.61; EVI + InSAR COH F1-Score = 0.61).
The mowing detection algorithm based on EVI was applied for the entire area of Germany for the years 2018-2021. It was revealed that the largest share of grasslands with high mowing frequencies (at least four mowing events) can be found in southern/south-eastern Germany. Extensively used grassland (mown up to two times) is distributed within the entire country with larger shares in the center and north-eastern parts of Germany. These patterns stay constant in general, but small fluctuations between the years are visible. Early mown grasslands can be found in southern/south-eastern Germany – in line with high mowing frequency areas – but also in central-western parts. The years 2019 and 2020 revealed higher accuracies based on the 1475 mowing events of the multi-annual validation data set
(F1-Scores of 0.64 and 0.63), 2018 and 2021 lower ones (F1-Score of 0.52 and 0.50).
Based on this new, unprecedented data set, potential influencing factors on the mowing dynamics were investigated. Therefore, climate, topography, soil data and information on conservation schemes were related to mowing dynamics for the year 2020, which showed a high number of valid observations and detection accuracy. It was revealed that there are no strong linear relationships between the mowing frequency or the timing of the first mowing event and the investigated variables. However, it was found that for intensive grassland usage certain climatic and topographic conditions have to be fulfilled, while extensive grasslands appear on the entire spectrum of these variables. Further, higher mowing frequencies occur on soils with influence of ground water and lower mowing frequencies in protected areas. These results show the complex interplay between grassland mowing dynamics and external influences and highlight the challenges of policies aiming to protect grassland ecosystem functions and their need to be adapted to regional circumstances.
N2  - Grünland prägt viele Landschaften der Erde, da es etwa ein Drittel der Erdoberfläche bedeckt. Es ist Heimat und Lebensgrundlage für Milliarden von Menschen und wird hauptsächlich als Futterquelle für die Viehhaltung genutzt. Neben der Futterproduktion erfüllen Grünlandflächen jedoch viele weitere Ökosystemfunktionen, wie die Speicherung von
Kohlenstoff, die Wasserfilterung, die Bereitstellung von Lebensräumen, als auch kulturelle Werte. Sie spielen eine Rolle bei der Abschwächung des Klimawandels und bei der Erhaltung der biologischen Vielfalt und der Ökosystemfunktionen auf globaler Ebene.
Das Ausmaß, in dem diese Ökosystemfunktionen in Grünlandökosystemen vorhanden sind, wird weitgehend durch die Bewirtschaftung bestimmt. Einzelne Bewirtschaftungspraktiken und die Nutzungsintensität beeinflussen sowohl die Artenzusammensetzung als auch Funktionen wie die Kohlenstoffspeicherung, wobei höhere Nutzungsintensitäten (z. B. hohe Mähfrequenzen) in der Regel einen negativen Einfluss haben. Insbesondere in mitteleuropäischen Ländern wie Deutschland, führt der bestimmende Einfluss der Grünlandbewirtschaftung auf die Physiognomie und die Ökosystemfunktionen zu
einer großen Variabilität und kleinräumigen Differenziertheit einzelner Grünlandflächen. Großräumige Informationen über die Bewirtschaftungs- und Nutzungsintensität von Grünland sind nicht verfügbar. Folglich sind Schätzungen der Ökosystemfunktionen von Grünland eine Herausforderung, die jedoch für großräumige Bewertungen des Zustands von Grünlandökosystemen und optimierte Bewirtschaftungspläne für die Zukunft erforderlich wären. Das Thema dieser Arbeit greift diese Lücke auf, indem es die wichtigste Grünlandbewirtschaftungsmethode in Deutschland, die Mahd, über mehrere Jahre, mit hoher räumlicher Auflösung und auf nationaler Ebene untersucht.
Die Erdbeobachtung hat den Vorteil, Informationen über die Erdoberfläche in multitemporalen Zeitschritten zu liefern. Eine umfangreiche Literaturrecherche zur Nutzung von Erdbeobachtung für Grünlandmanagement und Produktion, welche Teil dieser Arbeit war, hat gezeigt, dass insbesondere die Forschung zu kleinparzelligem Grünland mit einer großen Vielfalt an Bewirtschaftungs- und Nutzungsintensitäten, wie in Mitteleuropa gängig, unterrepräsentiert ist. Insbesondere die vor wenigen Jahren erfolgte Start der Sentinel-Satellitenmissionen ermöglicht nun auch die Analyse solcher Grünlandflächen
aufgrund der hohen räumlichen und zeitlichen Auflösung ihrer Aufnahmen. Die Literaturrecherche speziell zur Untersuchung von Mähereignissen auf Grünland ergab, dass die meisten bisherigen Studien sich auf kleine Untersuchungsgebiete konzentrierten, explorativ waren, nur einen Sensortyp verwendeten und/oder keinen Referenzdatensatz mit einer vollständigen Palette von Managementoptionen enthielten.
Im Rahmen dieser Arbeit wird eine neuartige Methodik zur Erkennung von Grünlandmahdereignissen vorgestellt, welches über mehrere Jahre (2018-2021) flächendeckend in Deutschland angewendet und validiert wurde. Beide Sensortypen – optisch (Sentinel-2) und SAR (Sentinel-1) – wurden hinsichtlich ihres Potentials zur Detektion von Grünlandmahdereignissen ausgewertet. Acht EO-Parameter wurden untersucht, nämlich der Enhanced Vegetation Index (EVI), die Rückstreuintensität und die interferometrische zeitliche Kohärenz (InSAR) für beide verfügbaren Polarimetrien (VV und VH), sowie die polarimetrischen (PolSAR) Zerlegungsparameter Entropie, K0 und K1. Ein umfangreicher
Referenzdatensatz wurde auf der Basis täglicher Bilder von Webcams generiert, welche über Deutschland verteilt sind. Dieser enthält Mahdinformationen für Grünland mit dem gesamten möglichen Spektrum an Mähfrequenzen – von eins bis sechs Mahden – und 1475 Referenz-Mähereignisse für die Untersuchungsjahre.
Zum ersten Mal wurde ein Ansatz basierend auf tatsächlichen Beobachtungen zur Erkennung der Mahd entwickelt, angewandt und großflächig validiert, der Daten von Sentinel - 2 und Sentinel - 1 verwendet und beide miteinander kombiniert. Anhand eines Subset der Referenzdaten (13 Grünlandparzellen) wurden die EO-Parameter untersucht und der Algorithmus zur Mahddetektion entwickelt und parametrisiert. Die Analyse hat gezeigt, dass ein schwellenwertbasierter Ansatz zur Erkennung von Veränderungen auf der Grundlage des EVI die Ereignisse der Grünlandmahd am besten erfasst, und nur während Bewölkungsperioden Mahden nicht erfolgreich detektiert. Alle SAR-basierten Parameter zeigten ein inkonsistenteres Verhalten gegenüber Mähaktivitäten als EVI, wobei PolSAR Entropie und InSAR Kohärenz VH noch das höchste Potenzial aufwiesen. Ein zweiter, kombinierter Ansatz, der auf EVI und einem SAR Parameter basiert, wurde entwickelt und für PolSAR Entropie und InSAR VH getestet. Aufgrund vieler zusätzlicher Veränderungen, die in den Zeitreihen erkennbar sind, wurde die SAR-basierte Mahddetektion nur während langer Lücken in den optischen Zeitreihen (< 25 Tage) initiiert. Die Anwendung und Validierung dieser Ansätze in einer Fokusregion ergab, dass die Verwendung des EVI-Ansatzes zu den höchsten Genauigkeiten führt (F1-Score = 0.65), da die Kombination dieses Ansatzes mit der SAR-basierten Detektion zu einem starken Anstieg der falsch erkannten Mähereignisse und damit zu einer Abnahme der Genauigkeiten führte (EVI + PolSAR ENT F1-Score=0.61; EVI + InSAR COH F1-Score = 0.61).
Der auf EVI basierende Mahddetektionsalgorithmus wurde für die gesamte Fläche
Deutschlands für die Jahre 2018–2021 angewendet. Es zeigte sich, dass der größte Anteil an Grünland mit hoher Mähfrequenz (mindestens vier Mähereignisse) im Süden/Südosten Deutschlands zu finden ist. Extensiv genutztes Grünland (bis zu zweimal gemäht) ist über das gesamte Bundesgebiet verteilt, mit größeren Anteilen in der Mitte und im Nordosten Deutschlands. Diese Muster bleiben im Allgemeinen konstant, aber es sind kleine Schwankungen zwischen den Jahren erkennbar. Früh gemähtes Grünland findet sich in Süd-/Südostdeutschland - entsprechend den Gebieten mit hoher Mähfrequenz -, aber auch in Mittel- und Westdeutschland. Die Jahre 2019 und 2020 zeigen höhere Genauigkeiten (F1-
Scores von 0.64 und 0.63), 2018 und 2021 niedrigere (F1-Score von 0.52 und 0.50).
Darüber hinaus wurden mögliche Einflussfaktoren auf die Mahddynamik untersucht. So wurden Klima, Topografie, Bodendaten und Informationen über Schutzmaßnahmen mit der Mahddynamik für das Jahr 2020 in Verbindung gebracht, für welches eine hohe Anzahl gültiger Beobachtungen und eine hohe Erfassungsgenauigkeit erzielt werden konnten. Es zeigte sich, dass es keine starken linearen Beziehungen zwischen der Mahdhäufigkeit oder dem Zeitpunkt der ersten Mahd und den untersuchten Variablen gibt. Es wurde jedoch festgestellt, dass für eine intensive Grünlandnutzung bestimmte klimatische und topografische Bedingungen erfüllt sein müssen, wohingegen extensive Grünlandflächen im gesamten Spektrum dieser Variablen auftreten. Außerdem treten auf Böden mit Grundwassereinfluss höhere und in Schutzgebieten niedrigere Mahdhäufigkeiten auf. Diese Ergebnisse zeigen das komplexe Zusammenspiel zwischen der Dynamik der Grünlandmahd und äußeren Einflüssen und verdeutlichen die Herausforderungen in der gezielten Erstellung von Maßnahmen zum Schutz von Grünland-Ökosystemfunktionen und die Notwendigkeit diese regional anzupassen.
KW  - Grünland
KW  - Erdbeobachtung
KW  - Fernerkundung
KW  - Mähen
KW  - Grünlandnutzung
KW  - Zeitreihe
KW  - Erde
KW  - Sentinel-1
KW  - Sentinel-2
KW  - Enhanced Vegetation Index
KW  - PolSAR
KW  - InSAR
Y1  - 2023
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-322737
ER  - 
TY  - THES
A1  - Üreyen, Soner
T1  - Multivariate Time Series for the Analysis of Land Surface Dynamics - Evaluating Trends and Drivers of Land Surface Variables for the Indo-Gangetic River Basins
T1  - Multivariate Zeitreihen zur Analyse von Landoberflächendynamiken - Auswertung von Trends und Treibern von Landoberflächenvariablen für Flusseinzugsgebiete der Indus-Ganges Ebene
N2  - The investigation of the Earth system and interplays between its components is of utmost importance to enhance the understanding of the impacts of global climate change on the Earth's land surface. In this context, Earth observation (EO) provides valuable long-term records covering an abundance of land surface variables and, thus, allowing for large-scale analyses to quantify and analyze land surface dynamics across various Earth system components. In view of this, the geographical entity of river basins was identified as particularly suitable for multivariate time series analyses of the land surface, as they naturally cover diverse spheres of the Earth. Many remote sensing missions with different characteristics are available to monitor and characterize the land surface. Yet, only a few spaceborne remote sensing missions enable the generation of spatio-temporally consistent time series with equidistant observations over large areas, such as the MODIS instrument. 

In order to summarize available remote sensing-based analyses of land surface dynamics in large river basins, a detailed literature review of 287 studies was performed and several research gaps were identified. In this regard, it was found that studies rarely analyzed an entire river basin, but rather focused on study areas at subbasin or regional scale. In addition, it was found that transboundary river basins remained understudied and that studies largely focused on selected riparian countries. Moreover, the analysis of environmental change was generally conducted using a single EO-based land surface variable, whereas a joint exploration of multivariate land surface variables across spheres was found to be rarely performed. 

To address these research gaps, a methodological framework enabling (1) the preprocessing and harmonization of multi-source time series as well as (2) the statistical analysis of a multivariate feature space was required. For development and testing of a methodological framework that is transferable in space and time, the transboundary river basins Indus, Ganges, Brahmaputra, and Meghna (IGBM) in South Asia were selected as study area, having a size equivalent to around eight times the size of Germany. These basins largely depend on water resources from monsoon rainfall and High Mountain Asia which holds the largest ice mass outside the polar regions. In total, over 1.1 billion people live in this region and in parts largely depend on these water resources which are indispensable for the world's largest connected irrigated croplands and further domestic needs as well. With highly heterogeneous geographical settings, these river basins allow for a detailed analysis of the interplays between multiple spheres, including the anthroposphere, biosphere, cryosphere, hydrosphere, lithosphere, and atmosphere. 

In this thesis, land surface dynamics over the last two decades (December 2002 - November 2020) were analyzed using EO time series on vegetation condition, surface water area, and snow cover area being based on MODIS imagery, the DLR Global WaterPack and JRC Global Surface Water Layer, as well as the DLR Global SnowPack, respectively. These data were evaluated in combination with further climatic, hydrological, and anthropogenic variables to estimate their influence on the three EO land surface variables. The preprocessing and harmonization of the time series was conducted using the implemented framework. The resulting harmonized feature space was used to quantify and analyze land surface dynamics by means of several statistical time series analysis techniques which were integrated into the framework. In detail, these methods involved (1) the calculation of trends using the Mann-Kendall test in association with the Theil-Sen slope estimator, (2) the estimation of changes in phenological metrics using the Timesat tool, (3) the evaluation of driving variables using the causal discovery approach Peter and Clark Momentary Conditional Independence (PCMCI), and (4) additional correlation tests to analyze the human influence on vegetation condition and surface water area.

These analyses were performed at annual and seasonal temporal scale and for diverse spatial units, including grids, river basins and subbasins, land cover and land use classes, as well as elevation-dependent zones. The trend analyses of vegetation condition mostly revealed significant positive trends. Irrigated and rainfed croplands were found to contribute most to these trends. The trend magnitudes were particularly high in arid and semi-arid regions. Considering surface water area, significant positive trends were obtained at annual scale. At grid scale, regional and seasonal clusters with significant negative trends were found as well. Trends for snow cover area mostly remained stable at annual scale, but significant negative trends were observed in parts of the river basins during distinct seasons. Negative trends were also found for the elevation-dependent zones, particularly at high altitudes. Also, retreats in the seasonal duration of snow cover area were found in parts of the river basins. Furthermore, for the first time, the application of the causal discovery algorithm on a multivariate feature space at seasonal temporal scale revealed direct and indirect links between EO land surface variables and respective drivers. In general, vegetation was constrained by water availability, surface water area was largely influenced by river discharge and indirectly by precipitation, and snow cover area was largely controlled by precipitation and temperature with spatial and temporal variations. Additional analyses pointed towards positive human influences on increasing trends in vegetation greenness. The investigation of trends and interplays across spheres provided new and valuable insights into the past state and the evolution of the land surface as well as on relevant climatic and hydrological driving variables. Besides the investigated river basins in South Asia, these findings are of great value also for other river basins and geographical regions.
N2  - Die Untersuchung von Erdsystemkomponenten und deren Wechselwirkungen ist von großer Relevanz, um das Prozessverständnis sowie die Auswirkungen des globalen Klimawandels auf die Landoberfläche zu verbessern. In diesem Zusammenhang liefert die Erdbeobachtung (EO) wertvolle Langzeitaufnahmen zu einer Vielzahl an Landoberflächenvariablen. Diese können als Indikator für die Erdsystemkomponenten genutzt werden und sind essenziell für großflächige Analysen. Flusseinzugsgebiete sind besonders geeignet um Landoberflächendynamiken mit multivariaten Zeitreihen zu analysieren, da diese verschiedene Sphären des Erdsystems umfassen. Zur Charakterisierung der Landoberfläche stehen zahlreiche EO-Missionen mit unterschiedlichen Eigenschaften zur Verfügung. Nur einige wenige Missionen gewährleisten jedoch die Erstellung von räumlich und zeitlich konsistenten Zeitreihen mit äquidistanten Beobachtungen über großräumige Untersuchungsgebiete, wie z.B. die MODIS Sensoren. 

Um bisherige EO-Analysen zu Landoberflächendynamiken in großen Flusseinzugsgebieten zu untersuchen, wurde eine Literaturrecherche durchgeführt, wobei mehrere Forschungslücken identifiziert wurden. Studien untersuchten nur selten ein ganzes Einzugsgebiet, sondern konzentrierten sich lediglich auf Teilgebietsgebiete oder regionale Untersuchungsgebiete. Darüber hinaus wurden transnationale Einzugsgebiete nur unzureichend analysiert, wobei sich die Studien größtenteils auf ausgewählte Anrainerstaaten beschränkten. Auch wurde die Analyse von Umweltveränderungen meistens anhand einer einzigen EO-Landoberflächenvariable durchgeführt, während eine synergetische Untersuchung von sphärenübergreifenden Landoberflächenvariablen kaum unternommen wurde.

Um diese Forschungslücken zu adressieren, ist ein methodischer Ansatz notwendig, der (1) die Vorverarbeitung und Harmonisierung von Zeitreihen aus mehreren Quellen und (2) die statistische Analyse eines multivariaten Merkmalsraums ermöglicht. Für die Entwicklung und Anwendung eines methodischen Frameworks, das raum-zeitlich übertragbar ist, wurden die transnationalen Einzugsgebiete Indus, Ganges, Brahmaputra und Meghna (IGBM) in Südasien, deren Größe etwa der achtfachen Fläche von Deutschland entspricht, ausgewählt. Diese Einzugsgebiete hängen weitgehend von den Wasserressourcen des Monsunregens und des Hochgebirges Asiens ab. Insgesamt leben über 1,1 Milliarden Menschen in dieser Region und sind zum Teil in hohem Maße von diesen Wasserressourcen abhängig, die auch für die größten zusammenhängenden bewässerten Anbauflächen der Welt und auch für weitere inländische Bedarfe unerlässlich sind. Aufgrund ihrer sehr heterogenen geographischen Gegebenheiten ermöglichen diese Einzugsgebiete eine detaillierte sphärenübergreifende Analyse der Wechselwirkungen, einschließlich der Anthroposphäre, Biosphäre, Kryosphäre, Hydrosphäre, Lithosphäre und Atmosphäre. 

In dieser Dissertation wurden Landoberflächendynamiken der letzten zwei Jahrzehnte anhand von EO-Zeitreihen zum Vegetationszustand, zu Oberflächengewässern und zur Schneebedeckung analysiert. Diese basieren auf MODIS-Aufnahmen, dem DLR Global WaterPack und dem JRC Global Surface Water Layer sowie dem DLR Global SnowPack. Diese Zeitreihen wurden in Kombination mit weiteren klimatischen, hydrologischen und anthropogenen Variablen ausgewertet. Die Harmonisierung des multivariaten Merkmalsraumes ermöglichte die Analyse von Landoberflächendynamiken unter Nutzung von statistischen Methoden. Diese Methoden umfassen (1) die Berechnung von Trends mittels des Mann-Kendall und des Theil-Sen Tests, (2) die Berechnung von phänologischen Metriken anhand des Timesat-Tools, (3) die Bewertung von treibenden Variablen unter Nutzung des PCMCI Algorithmus und (4) zusätzliche Korrelationstests zur Analyse des menschlichen Einflusses auf den Vegetationszustand und die Wasseroberfläche. 

Diese Analysen wurden auf jährlichen und saisonalen Zeitskalen und für verschiedene räumliche Einheiten durchgeführt. Für den Vegetationszustand wurden weitgehend signifikant positive Trends ermittelt. Analysen haben gezeigt, dass landwirtschaftliche Nutzflächen am meisten zu diesen Trends beitragen haben. Besonders hoch waren die Trends in ariden Regionen. Bei Oberflächengewässern wurden auf jährlicher Ebene signifikant positive Trends festgestellt. Auf Pixelebene wurden jedoch sowohl regional als auch saisonal Cluster mit signifikant negativen Trends identifiziert. Die Trends für die Schneebedeckung blieben auf jährlicher Ebene weitgehend stabil, jedoch wurden in Teilen der Einzugsgebiete zu bestimmten Jahreszeiten signifikant negative Trends beobachtet. Die negativen Trends wurden auch für höhenabhängige Zonen festgestellt, insbesondere in hohen Lagen. Außerdem wurden in Teilen der Einzugsgebiete Rückgänge bei der saisonalen Dauer der Schneebedeckung ermittelt. Darüber hinaus ergab die Untersuchung des multivariaten Merkmalsraums auf kausale Zusammenhänge auf saisonaler Ebene erstmals Aufschluss über direkte und indirekte Relationen zwischen EO-Landoberflächenvariablen und den entsprechenden Einflussfaktoren. Zusammengefasst wurde die Vegetation durch die Wasserverfügbarkeit, die Oberflächengewässer durch den Abfluss und indirekt durch den Niederschlag sowie die Schneebedeckung durch Niederschlag und Temperatur mit räumlichen und saisonalen Unterschieden kontrolliert. Zusätzliche Analysen wiesen auf einen positiven Zusammenhang zwischen dem menschlichen Einfluss und den zunehmenden Trends in der Vegetationsfläche hin. Diese sphärenübergreifenden Untersuchungen zu Trends und Wechselwirkungen liefern neue und wertvolle Einblicke in den vergangenen Zustand von Landoberflächendynamiken sowie in die relevanten klimatischen und hydrologischen Einflussfaktoren. Neben den untersuchten Einzugsgebieten in Südasien sind diese Erkenntnisse auch für weitere Einzugsgebiete und geographische Regionen von großer Bedeutung.
KW  - Multivariate Analyse
KW  - Zeitreihe
KW  - Fernerkundung
KW  - Geographie
KW  - Multivariate Time Series
KW  - River Basins
KW  - Earth Observation
KW  - Remote Sensing
Y1  - 2022
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-291941
ER  - 
TY  - THES
A1  - Züfle, Marwin Otto
T1  - Proactive Critical Event Prediction based on Monitoring Data with Focus on Technical Systems
T1  - Proaktive Vorhersage kritischer Ereignisse auf der Grundlage von Beobachtungsdaten mit Schwerpunkt auf technischen Systemen
N2  - The importance of proactive and timely prediction of critical events is steadily increasing, whether in the manufacturing industry or in private life. In the past, machines in the manufacturing industry were often maintained based on a regular schedule or threshold violations, which is no longer competitive as it causes unnecessary costs and downtime. In contrast, the predictions of critical events in everyday life are often much more concealed and hardly noticeable to the private individual, unless the critical event occurs. For instance, our electricity provider has to ensure that we, as end users, are always supplied with sufficient electricity, or our favorite streaming service has to guarantee that we can watch our favorite series without interruptions. For this purpose, they have to constantly analyze what the current situation is, how it will develop in the near future, and how they have to react in order to cope with future conditions without causing power outages or video stalling.

In order to analyze the performance of a system, monitoring mechanisms are often integrated to observe characteristics that describe the workload and the state of the system and its environment. Reactive systems typically employ thresholds, utility functions, or models to determine the current state of the system. However, such reactive systems cannot proactively estimate future events, but only as they occur. In the case of critical events, reactive determination of the current system state is futile, whereas a proactive system could have predicted this event in advance and enabled timely countermeasures. To achieve proactivity, the system requires estimates of future system states. Given the gap between design time and runtime, it is typically not possible to use expert knowledge to a priori model all situations a system might encounter at runtime. Therefore, prediction methods must be integrated into the system. Depending on the available monitoring data and the complexity of the prediction task, either time series forecasting in combination with thresholding or more sophisticated machine and deep learning models have to be trained.

Although numerous forecasting methods have been proposed in the literature, these methods have their advantages and disadvantages depending on the characteristics of the time series under consideration. Therefore, expert knowledge is required to decide which forecasting method to choose. However, since the time series observed at runtime cannot be known at design time, such expert knowledge cannot be implemented in the system. In addition to selecting an appropriate forecasting method, several time series preprocessing steps are required to achieve satisfactory forecasting accuracy. In the literature, this preprocessing is often done manually, which is not practical for autonomous computing systems, such as Self-Aware Computing Systems. Several approaches have also been presented in the literature for predicting critical events based on multivariate monitoring data using machine and deep learning. However, these approaches are typically highly domain-specific, such as financial failures, bearing failures, or product failures. Therefore, they require in-depth expert knowledge. For this reason, these approaches cannot be fully automated and are not transferable to other use cases. Thus, the literature lacks generalizable end-to-end workflows for modeling, detecting, and predicting failures that require only little expert knowledge.

To overcome these shortcomings, this thesis presents a system model for meta-self-aware prediction of critical events based on the LRA-M loop of Self-Aware Computing Systems. Building upon this system model, this thesis provides six further contributions to critical event prediction. While the first two contributions address critical event prediction based on univariate data via time series forecasting, the three subsequent contributions address critical event prediction for multivariate monitoring data using machine and deep learning algorithms. Finally, the last contribution addresses the update procedure of the system model. Specifically, the seven main contributions of this thesis can be summarized as follows:

First, we present a system model for meta self-aware prediction of critical events. To handle both univariate and multivariate monitoring data, it offers univariate time series forecasting for use cases where a single observed variable is representative of the state of the system, and machine learning algorithms combined with various preprocessing techniques for use cases where a large number of variables are observed to characterize the system’s state. However, the two different modeling alternatives are not disjoint, as univariate time series forecasts can also be included to estimate future monitoring data as additional input to the machine learning models. Finally, a feedback loop is incorporated to monitor the achieved prediction quality and trigger model updates.

We propose a novel hybrid time series forecasting method for univariate, seasonal time series, called Telescope. To this end, Telescope automatically preprocesses the time series, performs a kind of divide-and-conquer technique to split the time series into multiple components, and derives additional categorical information. It then forecasts the components and categorical information separately using a specific state-of-the-art method for each component. Finally, Telescope recombines the individual predictions. As Telescope performs both preprocessing and forecasting automatically, it represents a complete end-to-end approach to univariate seasonal time series forecasting. Experimental results show that Telescope achieves enhanced forecast accuracy, more reliable forecasts, and a substantial speedup. Furthermore, we apply Telescope to the scenario of predicting critical events for virtual machine auto-scaling. Here, results show that Telescope considerably reduces the average response time and significantly reduces the number of service level objective violations.

For the automatic selection of a suitable forecasting method, we introduce two frameworks for recommending forecasting methods. The first framework extracts various time series characteristics to learn the relationship between them and forecast accuracy. In contrast, the other framework divides the historical observations into internal training and validation parts to estimate the most appropriate forecasting method. Moreover, this framework also includes time series preprocessing steps. Comparisons between the proposed forecasting method recommendation frameworks and the individual state-of-the-art forecasting methods and the state-of-the-art forecasting method recommendation approach show that the proposed frameworks considerably improve the forecast accuracy.

With regard to multivariate monitoring data, we first present an end-to-end workflow to detect critical events in technical systems in the form of anomalous machine states. The end-to-end design includes raw data processing, phase segmentation, data resampling, feature extraction, and machine tool anomaly detection. In addition, the workflow does not rely on profound domain knowledge or specific monitoring variables, but merely assumes standard machine monitoring data. We evaluate the end-to-end workflow using data from a real CNC machine. The results indicate that conventional frequency analysis does not detect the critical machine conditions well, while our workflow detects the critical events very well with an F1-score of almost 91%.

To predict critical events rather than merely detecting them, we compare different modeling alternatives for critical event prediction in the use case of time-to-failure prediction of hard disk drives. Given that failure records are typically significantly less frequent than instances representing the normal state, we employ different oversampling strategies. Next, we compare the prediction quality of binary class modeling with downscaled multi-class modeling. Furthermore, we integrate univariate time series forecasting into the feature generation process to estimate future monitoring data. Finally, we model the time-to-failure using not only classification models but also regression models. The results suggest that multi-class modeling provides the overall best prediction quality with respect to practical requirements. In addition, we prove that forecasting the features of the prediction model significantly improves the critical event prediction quality.

We propose an end-to-end workflow for predicting critical events of industrial machines. Again, this approach does not rely on expert knowledge except for the definition of monitoring data, and therefore represents a generalizable workflow for predicting critical events of industrial machines. The workflow includes feature extraction, feature handling, target class mapping, and model learning with integrated hyperparameter tuning via a grid-search technique. Drawing on the result of the previous contribution, the workflow models the time-to-failure prediction in terms of multiple classes, where we compare different labeling strategies for multi-class classification. The evaluation using real-world production data of an industrial press demonstrates that the workflow is capable of predicting six different time-to-failure windows with a macro F1-score of 90%. When scaling the time-to-failure classes down to a binary prediction of critical events, the F1-score increases to above 98%.

Finally, we present four update triggers to assess when critical event prediction models should be re-trained during on-line application. Such re-training is required, for instance, due to concept drift. The update triggers introduced in this thesis take into account the elapsed time since the last update, the prediction quality achieved on the current test data, and the prediction quality achieved on the preceding test data. We compare the different update strategies with each other and with the static baseline model. The results demonstrate the necessity of model updates during on-line application and suggest that the update triggers that consider both the prediction quality of the current and preceding test data achieve the best trade-off between prediction quality and number of updates required.

We are convinced that the contributions of this thesis constitute significant impulses for the academic research community as well as for practitioners. First of all, to the best of our knowledge, we are the first to propose a fully automated, end-to-end, hybrid, component-based forecasting method for seasonal time series that also includes time series preprocessing. Due to the combination of reliably high forecast accuracy and reliably low time-to-result, it offers many new opportunities in applications requiring accurate forecasts within a fixed time period in order to take timely countermeasures. In addition, the promising results of the forecasting method recommendation systems provide new opportunities to enhance forecasting performance for all types of time series, not just seasonal ones. Furthermore, we are the first to expose the deficiencies of the prior state-of-the-art forecasting method recommendation system.
Concerning the contributions to critical event prediction based on multivariate monitoring data, we have already collaborated closely with industrial partners, which supports the practical relevance of the contributions of this thesis. The automated end-to-end design of the proposed workflows that do not demand profound domain or expert knowledge represents a milestone in bridging the gap between academic theory and industrial application. Finally, the workflow for predicting critical events in industrial machines is currently being operationalized in a real production system, underscoring the practical impact of this thesis.
N2  - Die Bedeutung einer proaktiven und rechtzeitigen Vorhersage von kritischen Ereignissen nimmt immer weiter zu, sei es in der Fertigungsindustrie oder im Privatleben. In der Vergangenheit wurden Maschinen in der Fertigungsindustrie oft auf der Grundlage eines regelmäßigen Zeitplans oder aufgrund von Grenzwertverletzungen gewartet, was heutzutage nicht mehr wettbewerbsfähig ist, da es unnötige Kosten und Ausfallzeiten verursacht. Im Gegensatz dazu sind die Vorhersagen von kritischen Ereignissen im Alltag oft wesentlich versteckter und für die Privatperson kaum spürbar, es sei denn das kritische Ereignis tritt ein. So muss zum Beispiel unser Stromanbieter dafür sorgen, dass wir als Endverbraucher immer ausreichend mit Strom versorgt werden, oder unser Streaming-Dienst muss garantieren, dass wir unsere Lieblingsserie jederzeit ohne Unterbrechungen anschauen können. Hierzu müssen diese ständig analysieren wie der aktuelle Zustand ist, wie er sich in naher Zukunft entwickeln wird und wie sie reagieren müssen, um die zukünftigen Bedingungen zu bewältigen, ohne dass es zu Stromausfällen oder Videoabbrüchen kommt.

Zur Analyse der Leistung eines Systems werden häufig Überwachungsmechanismen integriert, um Merkmale zu beobachten, die die Arbeitslast und den Zustand des Systems und seiner Umgebung abbilden. Reaktive Systeme verwenden typischerweise Schwellenwerte, Nutzenfunktionen oder Modelle, um den aktuellen Zustand des Systems zu bestimmen. Allerdings können solche reaktiven Systeme zukünftige Ereignisse nicht proaktiv abschätzen, sondern lediglich sobald diese eintreten. Bei kritischen Ereignissen ist die reaktive Bestimmung des aktuellen Systemzustands jedoch zwecklos, während ein proaktives System dieses Ereignis im Voraus hätte vorhersagen und rechtzeitig Gegenmaßnahmen einleiten können. Um Proaktivität zu erreichen, benötigt das System Abschätzungen über zukünftige Systemzustände. Angesichts der Kluft zwischen Entwurfszeit und Laufzeit ist es typischerweise nicht möglich Expertenwissen zu verwenden, um alle Situationen zu modellieren, auf die ein System zur Laufzeit stoßen könnte. Daher müssen Vorhersagemethoden in das System integriert werden. Abhängig von den verfügbaren Überwachungsdaten und der Komplexität der Vorhersageaufgabe müssen entweder Zeitreihenprognosen in Kombination mit Schwellenwerten oder ausgefeiltere Modelle des „Machine Learning“ und „Deep Learning“ trainiert werden.

Obwohl in der Literatur schon zahlreiche Zeitreihenprognosemethoden vorgeschlagen wurden, haben alle diese Methoden in Abhängigkeit der Eigenschaften der betrachteten Zeitreihen ihre Vor- und Nachteile. Daher ist Expertenwissen erforderlich, um zu entscheiden, welche Zeitreihenprognosemethode gewählt werden sollte. Da jedoch die zur Laufzeit beobachteten Zeitreihen zur Entwurfszeit nicht bekannt sein können, lässt sich ein solches Expertenwissen nicht im System integrieren. Zusätzlich zur Auswahl einer geeigneten Zeitreihenprognosemethode sind mehrere Zeitreihenvorverarbeitungsschritte erforderlich, um eine zufriedenstellende Prognosegenauigkeit zu erreichen. In der Literatur wird diese Vorverarbeitung oft manuell durchgeführt, was für autonome Computersysteme, wie z. B. „Self-Aware Computing Systems“, nicht praktikabel ist. Hinsichtlich der Vorhersage kritischer Ereignisse auf der Grundlage multivariater Überwachungsdaten wurden in der Literatur auch bereits mehrere Ansätze unter Verwendung von „Machine Learning“ und „Deep Learning“ vorgestellt. Diese Ansätze sind jedoch typischerweise sehr domänenspezifisch, wie z. B. für finanzielle Zusammenbrüche, Lagerschäden oder Produktfehler. Aus diesem Grund erfordern sie umfassendes Expertenwissen. Durch den spezifischen Zuschnitt auf die jeweilige Domäne können diese Ansätze nicht vollständig automatisiert werden und sind nicht auf andere Anwendungsfälle übertragbar. Somit fehlt es in der Literatur an verallgemeinerbaren Ende-zu-Ende Prozessen zur Modellierung, Erkennung und Vorhersage von Ausfällen, die lediglich wenig Expertenwissen erfordern.

Um diese Unzulänglichkeiten zu überwinden, wird in dieser Arbeit ein Systemmodell zur meta-selbstbewussten Vorhersage kritischer Ereignisse vorgestellt, das auf der LRA-M-Schleife von „Self-Aware Computing Systems“ basiert. Aufbauend auf diesem Systemmodell liefert diese Arbeit sechs weitere Beiträge zur Vorhersage kritischer Ereignisse. Während sich die ersten beiden Beiträge mit der Vorhersage kritischer Ereignisse auf der Basis univariater Daten mittels Zeitreihenprognose befassen, adressieren die drei folgenden Beiträge die Vorhersage kritischer Ereignisse für multivariate Überwachungsdaten unter Verwendung von „Machine Learning“ und „Deep Learning“ Algorithmen. Der letzte Beitrag schließlich behandelt das Aktualisierungsverfahren des Systemmodells. Im Einzelnen lassen sich die sieben Hauptbeiträge dieser Arbeit wie folgt zusammenfassen:

Zunächst stellen wir ein Systemmodell für die meta-selbstbewusste Vorhersage von kritischen Ereignissen vor. Um sowohl univariate als auch multivariate Überwachungsdaten verarbeiten zu können, bietet es univariate Zeitreihenprognosen für Anwendungsfälle, in denen eine einzelne Beobachtungsgröße repräsentativ für den Zustand des Systems ist, sowie „Machine Learning“ und „Deep Learning“ Algorithmen in Kombination mit verschiedenen Vorverarbeitungstechniken für Anwendungsfälle, in denen eine große Anzahl von Variablen beobachtet wird, um den Zustand des Systems zu charakterisieren. Die beiden unterschiedlichen Modellierungsalternativen sind jedoch nicht disjunkt, da auch univariate Zeitreihenprognosen einbezogen werden können, um zukünftige Überwachungsdaten als zusätzliche Eingabe für die „Machine Learning“ und „Deep Learning“ Modelle zu schätzen. Schließlich ist eine Rückkopplungsschleife eingebaut, die die erreichte Vorhersagequalität überwacht und gegebenenfalls Modellaktualisierungen auslöst.

Wir präsentieren eine neuartige, hybride Zeitreihenvorhersagemethode für univariate, saisonale Zeitreihen, die wir Telescope nennen. Telescope verarbeitet die Zeitreihe automatisch vor, führt eine Art „Divide-and-Conquer“ Technik durch, welche die Zeitreihe in mehrere Komponenten unterteilt, und leitet zusätzliche kategoriale Informationen ab. Anschließend prognostiziert es die Komponenten und kategorialen Informationen getrennt voneinander mit einer spezifischen Methode für jede Komponente. Abschließend setzt Telescope die einzelnen Vorhersagen wieder zusammen. Da Telescope alle Vorverarbeitungsschritte und Vorhersagen automatisch durchführt, stellt es einen vollständigen Ende-zu-Ende Ansatz für univariate, saisonale Zeitreihenvorhersagen dar. Experimentelle Ergebnisse zeigen, dass Telescope eine verbesserte Vorhersagegenauigkeit, zuverlässigere Vorhersagen und eine erhebliche Beschleunigung erreicht. Darüber hinaus wenden wir Telescope für die Vorhersage kritischer Ereignisse bei der automatischen Skalierung von virtuellen Maschinen an. Die Ergebnisse belegen, dass Telescope die durchschnittliche Antwortzeit erheblich reduziert und die Anzahl der Verletzungen der Service Level Zielvorgaben signifikant verringert.

Für die automatische Auswahl einer geeigneten Zeitreihenprognosemethode führen wir zwei Empfehlungssysteme ein. Das erste System extrahiert verschiedene Zeitreihencharakteristika, um die Beziehung zwischen ihnen und der Prognosegenauigkeit zu erlernen. Im Gegensatz dazu unterteilt das zweite System die historischen Beobachtungen in interne Trainings- und Validierungsteile, um die am besten geeignete Zeitreihenprognosemethode zu schätzen. Außerdem beinhaltet letzteres System auch Zeitreihenvorverarbeitungsschritte. Vergleiche zwischen den vorgeschlagenen Empfehlungssystemen für Zeitreihenprognosemethoden und den einzelnen Prognosemethoden sowie dem Ansatz zur Empfehlung von Zeitreihenprognosemethoden nach dem Stand der Technik ergeben, dass die vorgeschlagenen Systeme die Prognosegenauigkeit erheblich verbessern.

Im Hinblick auf multivariate Überwachungsdaten stellen wir zunächst einen Ende-zu-Ende Prozess vor, mit dem kritische Ereignisse in technischen Systemen in Form von anomalen Maschinenzuständen erkannt werden können. Der Ende-zu-Ende Entwurf umfasst die Rohdatenverarbeitung, die Phasensegmentierung, das Datenresampling, die Merkmalsextraktion und die Maschinenanomalieerkennung. Darüber hinaus stützt sich der Prozess explizit nicht auf tiefgreifendes Domänenwissen oder spezifische Überwachungsgrößen, sondern setzt lediglich gängige Maschinenüberwachungsdaten voraus. Wir evaluieren den Ende-zu-Ende Prozess anhand von Daten einer realen CNC-Maschine. Die Ergebnisse zeigen, dass die konventionelle Frequenzanalyse die kritischen Maschinenzustände nicht gut erkennt, während unser Prozess die kritischen Ereignisse mit einem F1-Wert von fast 91% sehr gut identifiziert.

Um kritische Ereignisse vorherzusagen, anstatt sie nur reaktiv zu erkennen, vergleichen wir verschiedene Modellierungsalternativen für die Vorhersage kritischer Ereignisse im Anwendungsfall der Vorhersage der Zeit bis zum nächsten Fehler von Festplattenlaufwerken. Da Fehlerdatensätze typischerweise wesentlich seltener sind als Instanzen, die den Normalzustand repräsentieren, setzen wir verschiedene Strategien zum Erzeugen künstlicher Fehlerinstanzen ein. Im nächsten Schritt vergleichen wir die Vorhersagequalität der binären Klassenmodellierung mit der herunterskalierten Mehrklassenmodellierung. Des Weiteren integrieren wir die univariate Zeitreihenprognose in den Merkmalsgenerierungsprozess, um so die zukünftigen Überwachungsdaten zu schätzen. Schließlich modellieren wir die Zeit bis zum nächsten Fehler nicht nur mithilfe von Klassifikationsmodellen, sondern auch mit Regressionsmodellen. Die Ergebnisse legen nahe, dass die Mehrklassenmodellierung die insgesamt beste Vorhersagequalität hinsichtlich praktischer Anforderungen liefert. Außerdem belegen wir, dass die Prognose der Merkmale des Vorhersagemodells mittels univariater Zeitreihenprognose die Qualität der Vorhersage kritischer Ereignisse signifikant verbessert.

Wir stellen einen Ende-zu-Ende Prozess für die Vorhersage kritischer Ereignisse von Industriemaschinen vor. Auch dieser Ansatz verlässt sich nicht auf Expertenwissen, mit Ausnahme der Definition von Überwachungsdaten, und stellt daher einen verallgemeinerbaren Prozess für die Vorhersage kritischer Ereignisse von Industriemaschinen dar. Der Prozess umfasst Merkmalsextraktion, Merkmalsverarbeitung, Zielklassenzuordnung und Modelllernen mit integrierter Hyperparameter-Abstimmung mittels einer Gittersuchtechnik. Ausgehend von den Ergebnissen des vorherigen Beitrags modelliert der Prozess die Vorhersage der Zeit bis zum nächsten Fehler in Form mehrerer Klassen, wobei wir verschiedene Beschriftungsstrategien für die Mehrklassenklassifizierung vergleichen. Die Evaluierung anhand realer Produktionsdaten einer großen Industriepresse demonstriert, dass der Prozess in der Lage ist, sechs verschiedene Zeitfenster für bevorstehende Fehler mit einem Makro F1-Wert von 90% vorherzusagen. Wenn man die Klassen der Zeit bis zum nächsten Fehler auf eine binäre Vorhersage von kritischen Ereignissen herunterskaliert, steigt der F1-Wert sogar auf über 98%.

Schließlich stellen wir vier Aktualisierungsauslöser vor, um zu bestimmen, wann Modelle zur Vorhersage kritischer Ereignisse während der Online-Anwendung neu trainiert werden sollten. Ein solches Neutraining ist bspw. aufgrund von Konzeptdrift erforderlich. Die in dieser Arbeit vorgestellten Aktualisierungsauslöser berücksichtigen die Zeit, die seit der letzten Aktualisierung verstrichen ist, die auf den aktuellen Testdaten erreichte Vorhersagequalität und die auf den vorangegangenen Testdaten erreichte Vorhersagequalität. Wir vergleichen die verschiedenen Aktualisierungsstrategien miteinander und mit dem statischen Ausgangsmodell. Die Ergebnisse veranschaulichen die Notwendigkeit von Modellaktualisierungen während der Online-Anwendung und legen nahe, dass die Aktualisierungsauslöser, die sowohl die Vorhersagequalität der aktuellen als auch der vorangegangenen Testdaten berücksichtigen, den besten Kompromiss zwischen Vorhersagequalität und Anzahl der erforderlichen Aktualisierungen erzielen.

Wir sind der festen Überzeugung, dass die Beiträge dieser Arbeit sowohl für die akademische Forschungsgemeinschaft als auch für die praktische Anwendung wichtige Impulse darstellen. Zuallererst sind wir unseres Wissens nach die ersten, die eine vollautomatische, hybride, komponentenbasierte, Ende-zu-Ende Prognosemethode für saisonale Zeitreihen vorschlagen, die auch die Zeitreihenvorverarbeitung beinhaltet. Durch die Verbindung einer zuverlässig hohen Vorhersagegenauigkeit mit einer zuverlässig niedrigen Zeit bis zum Ergebnis eröffnet diese viele neue Möglichkeiten für Anwendungen, die genaue Vorhersagen innerhalb eines festen Zeitraums erfordern, um rechtzeitig Gegenmaßnahmen ergreifen zu können. Darüber hinaus bieten die vielversprechenden Ergebnisse der Empfehlungssysteme für Zeitreihenprognosemethoden neue Ansätze zur Verbesserung der Vorhersageleistung für alle Arten von Zeitreihen, nicht nur für saisonale Zeitreihen. Ferner sind wir die ersten, die die Schwachstellen des bisherigen Stands der Technik bei der Empfehlung von Zeitreihenprognosemethoden aufgedeckt haben.
Hinsichtlich der Beiträge zur Vorhersage kritischer Ereignisse mittels multivariater Überwachungsdaten haben wir bereits eng mit Industriepartnern zusammengearbeitet,wodurch die hohe praktische Relevanz der Beiträge dieser Arbeit verdeutlicht wird. Der automatisierte Ende-zu-Ende Entwurf der vorgeschlagenen Prozesse, die kein tiefes Domänen- oder Expertenwissen erfordern, stellt einen Meilenstein in der Überbrückung der Kluft zwischen akademischer Theorie und industrieller Anwendung dar. Diese Tatsache wird insbesondere dadurch untermauert, dass der Prozess zur Vorhersage kritischer Ereignisse in Industriemaschinen derzeit bereits in einem realen Produktionssystem operationalisiert wird.
KW  - Prognose
KW  - Automation
KW  - Zeitreihe
KW  - Forecasting
KW  - Zeitreihenvorhersage
KW  - Failure Prediction
KW  - Fehlervorhersage
KW  - End-to-End Automation
KW  - Ende-zu-Ende Automatisierung
Y1  - 2022
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-255757
ER  - 
TY  - THES
A1  - Colditz, Rene Roland
T1  - Time Series Generation and Classification of MODIS Data for Land Cover Mapping
T1  - Zeitreihengenerierung und Klassifikation von MODIS Daten zur Landbedeckungsklassifikation
N2  - Processes of the Earth’s surface occur at different scales of time and intensity. Climate in particular determines the activity and seasonal development of vegetation. These dynamics are predominantly driven by temperature in the humid mid-latitudes and by the availability of water in semi-arid regions. Human activities are a modifying parameter for many ecosystems and can become the prime force in well-developed regions with an intensively managed environment. Accounting for these dynamics, i.e. seasonal dynamics of ecosystems and short- to long-term changes in land-cover composition, requires multiple measurements in time. With respect to the characterization of the Earth surface and its transformation due to global warming and human-induced global change, there is a need for appropriate data and methods to determine the activity of vegetation and the change of land cover. Space-borne remote sensing is capable of monitoring the activity and development of vegetation as well as changes of the land surface. In many instances, satellite images are the only means to comprehensively assess the surface characteristics of large areas. A high temporal frequency of image acquisition, forming a time series of satellite data, can be employed for mapping the development of vegetation in space and time. Time series allow for detecting and assessing changes and multi-year transformation processes of high and low intensity, or even abrupt events such as fire and flooding. The operational processing of satellite data and automated information-extraction techniques are the basis for consistent and continuous long-term product generation. This provides the potential for directly using remote-sensing data and products for analyzing the land surface in relation to global warming and global change, including deforestation and land transformation. This study aims at the development of an advanced approach to time-series generation using data-quality indicators. A second goal focuses on the application of time series for automated land-cover classification and update, using fractional cover estimates to accommodate for the comparatively coarse spatial resolution. Requirements of this study are the robustness and high accuracy of the approaches as well as the full transferability to other regions and datasets. In this respect, the developments of this study form a methodological framework, which can be filled with appropriate modules for a specific sensor and application. In order to attain the first goal, time-series compilation, a stand-alone software application called TiSeG (Time Series Generator) has been developed. TiSeG evaluates the pixel-level quality indicators provided with each MODIS land product. It computes two important data-availability indicators, the number of invalid pixels and the maximum gap length. Both indices are visualized in time and space, indicating the feasibility of temporal interpolation. The level of desired data quality can be modified spatially and temporally to account for distinct environments in a larger study area and for seasonal differences. Pixels regarded as invalid are either masked or interpolated with spatial or temporal techniques.
N2  - Prozesse an der Erdoberfläche finden auf verschiedenen Intensitätsskalen und in unterschiedlichen Zeiträumen statt. Dabei steuert das Klima die saisonale Aktivität der Vegetation, welche in den humiden Mittelbreiten hauptsächlich durch die Temperatur bestimmt wird. In semi-ariden Gebieten hingegen ist die Verfügbarkeit von Wasser als Haupteinflussfaktor für das Pflanzenwachstum zu betrachten. Andererseits greift auch der Mensch modifizierend in das Ökosystem ein. Dies gilt insbesondere für die stark besiedelten und intensiver genutzten Räume der Erde, in denen die Umwelt nahezu ausschließlich durch den Menschen gesteuert wird. Zur Beurteilung dieser Dynamiken, sowohl der natürlichen saisonalen Muster als auch der kurz- bis langfristigen Änderungen der Landschaft, ist die Aufnahme einer Vielzahl von Messungen über eine längere Periode erforderlich. Insbesondere im Zusammenhang mit der Charakterisierung der Landoberfläche und deren Veränderung im Rahmen der Erderwärmung aber auch des wachsenden Einflusses des Menschen auf die Umwelt besteht somit ein Bedarf an geeigneten Daten und Methoden zur Bestimmung der jährlichen Aktivität von Vegetationseinheiten und der wiederholbaren Kartierung der Landoberfläche. Die Satellitenfernerkundung ist in der Lage, durch Messung von Strahlung die Aktivität der Vegetation zu bestimmen sowie die Klassifikation der Landoberfläche abzuleiten. In vielen Fällen sind Satellitenaufnahmen die einzige Möglichkeit, große Flächen der Erde umfassend und einheitlich zu beurteilen. Dabei kann durch eine Vielzahl aufeinander folgender Aufnahmen, d.h. eine Zeitreihe aus Satellitendaten, die Entwicklung der Vegetation in Raum und Zeit beobachtet werden. Zeitreihen bieten das Potential, Veränderungen der Landoberfläche über mehrere Jahre zu dokumentieren und somit Prozesse sowohl hoher als auch niedriger Intensität abzuleiten. Neben diesen gerichteten Veränderungen können auch plötzliche Ereignisse, wie z.B. Hochwasser oder Brände, mit Zeitreihen erfasst und in Bezug auf normale Bedingungen ausgewertet werden. Insbesondere die operationelle Prozessierung der Satellitendaten und die automatisierte Ableitung von Informationen bilden die Basis für konsistente und kontinuierliche Produkte über längere Zeiträume. Somit besteht das Potential, die Ergebnisse direkt in die Erforschung der Landoberfläche und deren Veränderung, z.B. durch die Erderwärmung, Walddegradation, oder die Nutzung vormals natürlicher Flächen, einzubinden. Diese Dissertation befasst sich mit der Entwicklung von Methoden zur Zeitreihengenerierung unter Verwendung der Qualitätsindikatoren einzelner Aufnahmen. Ein zweites Ziel der Arbeit ist die Anwendung der optimierten Zeitreihen zur automatisierten und reproduzierbaren Kartierung der Landoberfläche, wobei unscharfe Klassifikationsverfahren zur genaueren Charakterisierung der räumlich nur grob aufgelösten Daten eingesetzt werden. Damit erfordert diese Arbeit sowohl Robustheit der eingesetzten Methoden als auch eine hohe Genauigkeit der Ergebnisse. Ebenso maßgeblich ist die Übertragbarkeit der Verfahren, einerseits auf verschiedene Regionen als auch auf verschiedene Datensätze. Daher sind die hier vorgenommenen Entwicklungen als ein Rahmen zu verstehen, der je nach Sensor oder Anwendung mit verschiedenen Modulen besetzt werden kann. Zum Erreichen des ersten Zieles, der Zeitreihengenerierung, wurde das eigenständige Softwareprodukt TiSeG (Time Series Generator) entwickelt. TiSeG dient der Auswertung der Qualitätsindikatoren die mit jedem MODIS-Produkt für terrestrische Applikationen zur Verfügung gestellt werden. Dabei werden in Bezug auf die Generierung von Zeitreihen zwei Indizes der Datenverfügbarkeit ermittelt: erstens die Anzahl der ungültigen Pixel und zweitens die längste zeitliche Datenlücke. Beide Indizes werden räumlich und zeitlich dargestellt und geben so dem Bearbeiter die Information, ob mit den aktuellen Qualitätsangaben die Generierung einer sinnvollen Zeitreihe durch zeitliche Dateninterpolation möglich ist. Die Qualitätseinstellungen können sowohl zeitlich als auch räumlich angepasst werden. Eine zeitliche Änderung kann beispielsweise für bestimmte Jahreszeiten sinnvoll sein. Räumlich unterschiedliche Qualitätseinstellungen eignen sich für größere Untersuchungsgebiete mit differenzierten physisch-geographischen Charakteristika. Als ungültig betrachtete Pixel können durch einen Fehlwert maskiert oder durch zeitliche und räumliche Interpolation neu errechnet werden. Das zweite Ziel dieser Arbeit ist die automatische Klassifikation von Zeitreihen. Hierzu wurde ein modulares Verfahren der überwachten Klassifikation entwickelt. Aufgrund der groben räumlichen Auflösung von MODIS-Daten erschien es besonders wichtig, ein unscharfes Verfahren aufzubauen, das die Heterogenität der Klassen in vielen Räumen besser abbilden kann. Dabei wurde der Klassenanteil eines jeden Pixel ermittelt. Die Schlüsselmodule zur erfolgreichen Durchführung der Klassifikation waren eine Multiskalenanalyse und die geeignete Auswahl von Merkmalen und Stichproben zum Trainieren des Klassifikators. Der eigentliche Klassifikationsschritt wurde durch eine Erweiterung des Entscheidungsbaumklassifikators durchgeführt. Diese Erweiterung kann in den bestehenden Rahmen von „random forest“ und „bagging“ (ein Akronym für „bootstrap aggregation“) eingeordnet werden. Jedoch wurden die dort angewendeten Verfahren in dieser Arbeit zu einem deutlich strategischen Vorgehen modifiziert, d.h. es wurde auf das Prinzip der Zufallsauswahl und der Wiederverwendung von Stichproben (Ziehen mit Zurücklegen) verzichtet. In Bezug auf die anfangs geschilderten Anforderungen, Robustheit, Genauigkeit und Übertragbarkeit, kann an dieser Stelle festgestellt werden, dass sich die in dieser Arbeit entwickelten Methodiken als geeignet erwiesen haben. Insbesondere die Übertragbarkeit auf andere Regionen und Daten war eine große Herausforderung, da hierdurch kein zusätzliches a priori Wissen außer den Trainingsdaten zum überwachten Klassifizieren benutzt werden konnte. Die regionale Übertragbarkeit ist für mehrere Untersuchungsräume mit sehr unterschiedlichen physisch-geographischen Eigenschaften demonstriert worden. Obwohl TiSeG derzeit nicht direkt auf andere Datensätze außer MODIS angewendet wird, bildet die zugrunde liegende Idee der Auswertung von Qualitätsdaten zur Zeitreihengenerierung sowie der entwickelte Rahmen der Software die Möglichkeit der Erweiterung, z.B. auf Daten von MERIS und auf das zukünftige VIIRS-Instrument. Des Weiteren ist das grundlegende Konzept der Qualitätsauswertung in einem separaten Prozessor für AVHRR NDVI Daten zu einem vollautomatischen, schrittweise interpolierenden Verfahren erweitert worden. Das in dieser Arbeit vorgestellte modulare Klassifikationsverfahren erfordert keine besonderen Eingangsdaten, wie z.B. bestimmte MODIS Zeitreihen. Dies wurde durch den Gebrauch unterschiedlicher Eingangsdaten zur Generierung der Maßzahlen bei der Sensitivitätsanalyse bestätigt. Damit ist der Prozess weder auf MODIS-Zeitserien noch auf Zeitreihen generell beschränkt. Der gesamte automatische Klassifikationsprozess ist datengesteuert, sowohl was die zu klassifizierenden Daten als auch die Trainingsdaten angeht. Die Unschärfe in den Ergebnissen ermöglicht die detaillierte Auswertung der Klassenzusammensetzung, was ein besonders wichtiger Aspekt bei grob aufgelösten Datenprodukten und deren Anpassungsfähigkeit auf andere Anwendungen ist.
KW  - Zeitreihe
KW  - Automatische Klassifikation
KW  - Klassifikations- und Regressionsbaum
KW  - Fernerkundung
KW  - Time Series
KW  - Automated Classification
KW  - Land Cover Mapping
KW  - MODIS
Y1  - 2007
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-25908
ER  -