Big Data in der Erdbeobachtung 500 Terabyte komprimiert in einem Datensatz

Der Timescan-Prozessor hilft bei der Verarbeitung riesiger Mengen an Satellitenbildern und sorgt für eine kompakte Darstellung der Informationen.

10.02.2017

Aktuelle Satellitenmissionen generieren gewaltige Datenmengen. Forscher des DLR haben nun ein Verfahren entwickelt, um Millionen von Satellitenbildern in einem einzigen Datensatz zu visualisieren.

Bis Ende 2017 werden die Sentinel-Satellitenmissionen des europäischen Copernicus-Programms ein tägliches Datenvolumen von mehr als 20 Terabyte generieren. Angesichts dieser Informationsflut sind neue Auswertungsverfahren erforderlich. Wissenschaftler am Earth Observation Center (EOC) des Deutschen Zentrums für Luft- und Raumfahrt (DLR) in Oberpfaffenhofen haben zu diesem Zweck den Timescan-Prozessor entwickelt. Mit Hilfe der neuen Anwendung entsteht aus einer Vielzahl von Satellitenaufnahmen, die über einen längeren Zeitraum aufgenommen wurden, ein einzelnes Informationsprodukt.

Generalprobe mit Landsat-Aufnahmen

Für einen Test verarbeiteten die Entwickler über 450 000 Aufnahmen eines amerikanischen Landsat-Satelliten aus den Jahren 2013 bis 2015. Hierzu komprimierten sie die rund 500 Terabyte an Einzelaufnahmen auf ein Zwanzigstel der ursprünglichen Größe. Das Ergebnis ist nun als Timescan Landsat 2015 verfügbar. Der globale, wolkenfreie Datensatz liefert in kompakter Art und Weise Informationen über die Beschaffenheit der Landoberfläche.

Es handelt sich hierbei nicht, wie bei anderen globalen Satellitenbildern üblich, um ein einfaches Bildmosaik. Stattdessen haben die Wissenschaftler spezielle Parameter zu Vegetation, Gewässern oder Besiedlung von den multispektralen Landsat-Aufnahmen abgeleitet. Deren zeitliche Charakteristik haben sie dann statistisch in Form von Minimum, Maximum und Mittelwert beschrieben. Das Projekt soll Forscher und Entscheidungsträger in Planungs- und Umweltbehörden unterstützen und unter anderem zu einem besseren Verständnis des weltweiten Phänomens der Urbanisierung beitragen.

1,5 Petabyte an Daten verarbeiten

„Die Landsat-Mission hat in den letzten vier Jahrzehnten über vier Millionen Bilder aufgenommen und eignet sich daher ideal, um die Verarbeitung von Massendaten, wie sie die Sentinel-Missionen in den kommenden Jahren liefern wird, mit dem Timescan-Prozessor zu testen“, erläutert Projektleiter Dr. Thomas Esch. Zu diesem Zweck haben die Wissenschaftler den Timescan-Prozessor auf das Super Computing Center IT4Innovations in Ostrava-Poruba, Tschechien, transferiert. „Unser globaler Datensatz hat eine räumliche Auflösung von 30 Metern pro Bildpunkt. Dafür mussten wir insgesamt mehr als 1,5 Petabyte an Daten verarbeiten. Ein leistungsfähiger Computer mit exzellenter Netzanbindung wie der IT4Innovations war dafür unabdingbar“, berichtet Esch.

Big Data in der Erdbeobachtung

Das gesamte Verfahren ist für enorme Datenmengen ausgelegt. Ziel ist es, dass Endnutzer Informationen aus bislang für sie nicht handhabbaren Datenmengen gewinnen können. Anders als bisher findet die Verarbeitung der Satellitenaufnahmen in Zukunft auf großen Rechenclustern statt. Idealerweise befinden sie sich unmittelbar dort, wo die Daten von den Satelliten empfangen werden.

Dadurch entfällt auch die Verteilung immenser Datenmengen an viele, einzelne Nutzer. Diese benötigen folglich auch nicht mehr zwingend eine eigene Hochleistungsrechnerinfrastruktur für weiterführende Auswertungen. Stattdessen erhält der Nutzer nur noch das Endprodukt der Timescan-Verarbeitung, dessen Größe einen Bruchteil des ursprünglichen Eingangsvolumens an Daten einnimmt.

Nutzen für Sentinel-Bilder

Es ist geplant, das Material aus den Sentinel-Missionen ebenfalls als Timescan-Datensätze verfügbar zu machen, sobald globale Zeitserien vorliegen. Potential bieten diese Informationen auch außerhalb eines urbanen Kontextes. Mögliche Anwendungsgebiete stellen etwa Forschungsfragen zum globalen Wandel mit Bezug auf Landbedeckungs- und Landnutzungskartierungen, Land- und Forstwirtschaft, Überwachung von Polar- und Küstenregionen, Risikomanagement, Katastrophenvorsorge oder Ressourcenmanagement dar.

Mit Hilfe des Endprodukts ist es dann beispielsweise möglich, global bebaute Flächen in einer bisher unerreichten Genauigkeit automatisiert zu kartieren. Dafür werten die Forscher den Datensatz zusammen mit einem komplementären Produkt aus, das auf Basis von Sentinel-1-Radaraufnahmen errechnet wird. Ein weiteres Anwendungsgebiet ist die weltweite Ableitung von Bebauungsdichten und Grünflächenanteilen innerhalb von Siedlungsgebieten.

Bildergalerie

  • Abgebildet ist der globale Timescan-Landsat-2015-Datensatz, dargestellt als Falschfarbenkomposit aus temporalem Mittelwert des Bebauungsindex (rot), des Vegetationsindex (grün) und des Wasserindex (blau).

    Abgebildet ist der globale Timescan-Landsat-2015-Datensatz, dargestellt als Falschfarbenkomposit aus temporalem Mittelwert des Bebauungsindex (rot), des Vegetationsindex (grün) und des Wasserindex (blau).

    Bild: DLR, CC-BY 3.0

  • Zu sehen ist ein Falschfarbenkomposit für die Region New York mit dem temporalen Mittelwert des Bebauungsindex (rot), dem Vegetationsindex (grün) und dem temporalen Mittelwert des Wasserindex (blau).

    Zu sehen ist ein Falschfarbenkomposit für die Region New York mit dem temporalen Mittelwert des Bebauungsindex (rot), dem Vegetationsindex (grün) und dem temporalen Mittelwert des Wasserindex (blau).

    Bild: DLR, CC-BY 3.0

  • Das Bild zeigt die Region um die Stadt Ariquemes, Brasilien, abgeleitet für die Jahre 1985 (links) und 2015 (rechts). Aus dem Vergleich der beiden Falschfarbenkomposite mit dem temporalen Maximum des Bebauungsindex (rot), dem Vegetationsindex (grün) und dem temporalen Mittelwert des Wasserindex (blau) geht hervor, wie sich die Siedlung (rot), aber auch die landwirtschaftliche Fläche (gelb und orange) im Laufe der Jahre weit in die vegatationsreiche Umgebung (grün) ausgedehnt haben.

    Das Bild zeigt die Region um die Stadt Ariquemes, Brasilien, abgeleitet für die Jahre 1985 (links) und 2015 (rechts). Aus dem Vergleich der beiden Falschfarbenkomposite mit dem temporalen Maximum des Bebauungsindex (rot), dem Vegetationsindex (grün) und dem temporalen Mittelwert des Wasserindex (blau) geht hervor, wie sich die Siedlung (rot), aber auch die landwirtschaftliche Fläche (gelb und orange) im Laufe der Jahre weit in die vegatationsreiche Umgebung (grün) ausgedehnt haben.

    Bild: DLR, CC-BY 3.0

Verwandte Artikel