In der EU sind große Unternehmen gesetzlich dazu verpflichtet, ihre Treibhausgasemissionen zu erfassen. Die manuelle Extraktion dieser Informationen aus langen PDF-Nachhaltigkeitsberichten ist jedoch zeitaufwendig und fehleranfällig. Viele Teams versuchen deshalb, diesen Prozess durch Automatisierung zu beschleunigen, beispielsweise durch den Einsatz von Large Language Models (LLMs). Dabei handelt es sich um KI-Systeme, die Texte lesen und Antworten generieren können.
Dr. Malte Schierholz, Projektkoordinator und Postdoktorand am Social Data Science and AI Lab (SODA Lab), mahnt jedoch zur Vorsicht: „Bei automatischen Extraktionsmethoden neigt man schnell dazu, den Ergebnissen eines LLMs voll und ganz zu vertrauen und dabei häufig auftretende Messfehler zu übersehen.“ Da der Trend zur zunehmenden Automatisierung vielversprechend, aber gleichzeitig auch risikobehaftet ist, hat sich die Forschungsgruppe „Greenhouse Gas Insights and Sustainability Tracking“ (GIST) zum Ziel gesetzt, eine zuverlässige Referenz für die Erfassung von Emissionsdaten zu schaffen.
Ein Goldstandard für die Erfassung von Emissionsdaten
In einer im Fachmagazin Scientific Data veröffentlichten Studie stellt die Gruppe einen Vergleichsdatensatz vor, der als Goldstandard für die Ermittlung von Treibhausgasemissionen dienen soll. Der Datensatz basiert auf Nachhaltigkeitsberichten von Unternehmen aus dem MSCI World Small Cap Index und dem deutschen DAX. „Die Aufgabe bestand im Grunde darin, die Werte für Treibhausgasemissionen aus PDF-Dateien in eine Tabelle zu übertragen“, so Schierholz. „Was zunächst einfach klingt, erwies sich als überraschend komplex.“
In einem mehrstufigen Prozess arbeiteten Expertinnen und Experten für nachhaltige Finanzen der LMU und der Deutschen Bundesbank mit Methodik-Fachleuten zusammen. Sie legten klare Regeln für die Erfassung fest, führten mehrere Extraktions- und Verifizierungsrunden durch und beriefen Experten-Diskussionsgruppen ein. „Wenn man einen Datensatz haben möchte, der sowohl genau ist als auch Vergleiche zwischen den Unternehmen ermöglicht, braucht man klare Regeln und viele Feedbackschleifen während des gesamten Datenerfassungsprozesses“, sagt Jacob Beck, der die Datenerfassung leitete. „Letztendlich mussten einige uneindeutige Fälle noch von einer Expertengruppe diskutiert werden.“
Viele Unternehmen dokumentieren unzureichend
Der auf nachhaltige Finanzen spezialisierte Forscher Dr. Andreas Dimmelmeier (GreenDIA-Konsortium) zeigte sich darüber wenig überrascht: „Schwer zu lösende Fälle resultieren nicht nur aus komplexen und teilweise inkonsistenten Berichtsprotokollen, sondern auch aus fehlenden Kontextinformationen und unvollständigen Angaben in Unternehmensberichten. Viele Unternehmen in unserer Stichprobe haben ihre Emissionen nicht gemäß dem etablierten Berichts- und Berechnungsrahmen offengelegt.“
Das Team stellte außerdem fest, dass etwa die Hälfte der Berichte überhaupt keine verwertbaren Treibhausgas-Daten enthielt. Wenn Emissionen angegeben wurden, dann am häufigsten direkte und indirekte Emissionen aus dem Energieverbrauch. Weitere indirekte Emissionen, zum Beispiel solche, die entlang der Lieferketten entstehen, oder Emissionen durch Reisen und Transporte, waren selten vollständig dokumentiert.
Zusammen mit den dazugehörigen Skripten und ergänzenden Materialien bietet der Datensatz eine transparente, sorgfältig aufbereitete Grundlage für die Bewertung automatisierter Ansätze zur Nachhaltigkeitsberichterstattung. Durch die explizite Darstellung von Annahmen und Entscheidungen ermöglicht er faire Methodenvergleiche und eine bessere Kommunikation der Unsicherheit in Bezug auf die Angaben. Die GIST-Gruppe hofft, dass diese Grundlage in Forschung und Praxis dabei helfen wird, Fortschritte ehrlicher zu messen und kritische Datenlücken auf dem Weg zu Netto-Null-Emissionen zu schließen.