Das Problem verschärft sich noch, wenn KI-Agenten Anweisungen aus verschiedenen Quellen beziehen – etwa gleichzeitig über den System-Prompt und über ein Dokument, das sie aus einer externen Datenbank abgefragt haben und in dem ein Angreifer eine manipulative Anweisung versteckt hat. Leicht kann der Agent diesem externen versteckten Befehl dieselbe Autorität einräumen, wie der ursprünglichen Anweisung des System-Prompts. In verteilten Multi-Agenten-Systemen potenziert sich dieses Risiko dann noch einmal.
Ähnlich dem Prinzip der Stillen Post reicht ein Agent die manipulierenden externen Daten an den nächsten Agenten weiter, der diese dann als legitimen Fakt erfasst. Mit jeder Weitergabe geht der Kontext des ungesicherten Ursprungs der Daten mehr und mehr verloren. Am Ende der Übergabekette führt dann im schlimmsten Fall ein Agent mit weitreichenden Systemberechtigungen den versteckten Befehl aus, was zur Kompromittierung der gesamten IT-Infrastruktur oder zur Exfiltration sensibler Daten führen kann.
Nicht durch klassische Cybersicherheit abdeckbar
Klassische Cybersicherheitsmaßnahmen greifen bei dieser Art von Angriffen ins Leere. Web Application Firewalls etwa sind nur darauf trainiert, vorhersehbare syntaktische Muster wie SQL-Injections zu blockieren. Prompt Injection nutzt jedoch valide, natürliche Sprache. Der Angriff liegt nicht in der Syntax, sondern in der Semantik verborgen. Auch statische Filterregeln versagen in aller Regel, da Angreifer verbotene Wörter leicht durch Synonyme oder komplexe Umschreibungen ersetzen können.
Um dieses fundamentale Architekturproblem zu lösen, bedarf es der Etablierung harter kryptografischer Vertrauensgrenzen. Die effektivste Lösung ist hier die Implementierung einer Architektur zur kryptografischen Prompt-Signierung (Prompt Signing). Dieses Konzept adaptiert das bewährte Modell des Software-Code-Signings und überträgt es auf natürlichsprachliche Anweisungen für KI-Systeme.
Anstatt sich darauf zu verlassen, dass das Sprachmodell bösartige Eingaben selbst erkennt, wird dem KI-Agenten eine strikte Validierungsebene vorgeschaltet. Bevor eine Anweisung den Agenten überhaupt erreicht, muss sie von einer autorisierten Quelle digital signiert werden. Die privaten Signaturschlüssel werden dabei zentral und hochsicher, beispielsweise in Hardware-Sicherheitsmodulen (HSMs), verwahrt.
Der kritische Moment ist die Verifizierung vor der eigentlichen Ausführung. Das System, in dem der KI-Agent operiert, fängt jede eingehende Direktive ab und unterzieht sie einer kompromisslosen Prüfung. Drei Eigenschaften müssen hierbei zweifelsfrei kryptografisch nachgewiesen werden können:
Authentizität: Die Signatur muss sich über eine gültige Zertifikatskette auf eine vertrauenswürdige interne Stammzertifizierungsstelle zurückführen lassen. Dies beweist, dass der Befehl aus einer explizit autorisierten Quelle stammt.
Integrität: Die kryptografische Signatur muss exakt mit dem Inhalt der Anweisung übereinstimmen, was garantiert, dass der Prompt auf dem Transportweg nicht im Geringsten manipuliert worden ist.
Aktualität (Replay-Schutz): Wenn ein Angreifer einen gültig signierten Prompt abfängt, könnte er diesen theoretisch wiederholt an das System senden. Um dies zu verhindern, wird die Signatur mit einem vertrauenswürdigen Zeitstempel versehen. Die Verifizierungslogik akzeptiert dann nur Signaturen, die innerhalb eines eng vordefinierten Aktualitätsfensters liegen.
Nur wenn alle drei Prüfungen erfolgreich verlaufen, wird die Anweisung zur Ausführung an das KI-Modell weitergeleitet. Schlägt auch nur eine Prüfung fehl, wird die Eingabe sofort verworfen. Durch diesen Ansatz wird die Autorisierung von der anfälligen Textinterpretation des Sprachmodells entkoppelt und auf eine mathematisch fundierte, kryptografische Vertrauenskette verlagert. So kann effektiv verhindert werden, dass Angreifer durch eingeschleuste Prompts die Kontrolle über autonome Unternehmens-KIs übernehmen.