Entweder Unternehmen führen LLM-Penetrationstests durch —oder Angreifer übernehmen den Job.

Warum werden LLM-Penetrationstests jetzt Pflicht?

1. Der Wendepunkt: KI begeht ihr erstes Cyber Crime

Im September 2025 wurde ein historischer Wendepunkterreicht: Zum ersten Mal führte eine KI weitgehend autonom einen Cyberangriffdurch. Keine klassische Hackergruppe, keine Malware-Toolkits, sondern einagentisches KI-System. Der Angriff wurde von einem chinesisch staatlichunterstützten Akteur durchgeführt und nutzte Anthropic Claude Code, umautomatisiert 80–90 % der operativen Cyber-Attacke ohne menschliche Steuerungauszuführen. Dies beinhaltete:

- „Reconnaissance“ (Zielerkundung),

- „Exploit-Entwicklung“ (Ausnutzen gefundenerSchwachstellen),

- „Credential-Theft“ (Diebstahl von Zugangsdaten),

- „Lateral Movement“ (Seitwärtsbewegung im Netzwerk zurAusweitung der Rechte)

- „Datenextraktion“ (gezieltes Auslesen vertraulicherInformationen) und

- „Exfiltration“ (unerlaubter Abfluss der Daten nach außen).

Die KI handelte orchestriert, skalierbar, 24/7 und mit einerGeschwindigkeit, die kein menschliches Team erreicht. Erstmals wurdenhochrangige Unternehmen und Regierungsbehörden kompromittiert — nicht vonMenschen, sondern von KI-Agenten.

Dieser Fall zeigt:

Cyberangriffe werden künftig nicht nur digitaler — sondern autonomer. Die Frage ist nicht, ob KI angegriffen wird, sondern ob Ihre KI sicher ist.


Damit wird die unangenehme Frage an jedes Unternehmen immer dringender:

Wissen Sie überhaupt, welche Ihrer Softwareanwendungenbereits KI enthalten?
Gibt es eine vollständige, gepflegte Liste in Ihrem Unternehmen?
Und wer bewertet regelmäßig die Sicherheitsrisiken dieser KI-Systeme?

Die Realität im Mittelstand:
Die meisten Unternehmen nutzen bereits KI — ohne jemals geprüft zu haben, obdie Systeme sicher sind. Besonders LLM-basierte Lösungen (z. B. Chatbots,Co-Piloten, RAG-Systeme, Automations-Agenten) erzeugen eine neue Klasse vonAngriffsflächen. Der Bericht des Expertenkreises KI-Sicherheit (Allianz fürCybersicherheit) stellt klar:

LLM-Systeme benötigen eigene, spezialisierte Penetrationstests — klassische Penetrationstests reichen nicht aus.

Manager in Anzug zeigt mit ausgestrecktem Arm nach vorn, eine holografische KI folgt – Symbol für Mensch-KI-Führung und Zusammenarbeit.
Mensch gibt die Richtung vor, KI folgt und verstärkt

2. Warum reicht Standard-IT-Sicherheit bei LLMs nicht aus?

LLM-Pentests unterscheidet sich grundlegend vom klassischenPentesting.
Die Unterschiede:

Klassische IT-Sicherheitstests

LLM-Penetrationstests

Fokus auf Infrastruktur & deterministische Software

Fokus auf Modell, API, Kontext, probabilistische Ausgaben

Schwachstellen sind überwiegend technischer Natur

Schwachstellen sind technisch, datenschutzrechtlich &  inhaltlich

Exploit-Kette ist vorhersehbar

Ergebnisse können variieren (Nicht-Determinismus)

Ziel: System übernimmt keine falschen Befehle

Ziel: KI führt keine schädlichen Inhalte aus oder gibt  keine sensiblen Daten preis

Angriffsvektoren sind begrenzt

Prompt  Injection, Indirect Prompt Injection, RAG-Manipulation, Tool-Missbrauch,  API-Abuse etc.

 

Kurz: Wer KI wie klassische Software behandelt, hateinen blinden Fleck bei IT- Sicherheit, der immer größer wird.

3. Warum erfordert die Rechtslage Tests?

LLM-Pentesting ist nicht nur „Best Practice“ — sondernentwickelt sich zur Compliance-Pflicht. Dabei gibt es verschiedene relevanteRegulierungen:

Regulierung

Konsequenz für den Betrieb von KI-Systemen

DSGVO

KI darf personenbezogene Daten nicht unkontrolliert  verarbeiten oder preisgeben

NIS-2

Kritische/essentielle Unternehmen müssen regelmäßige  Penetrationstests durchführen

AI Act

Hoch- und mittelrisikobehaftete KI-Systeme benötigen  dokumentierte Risikoprüfung

Cyber Resilience Act (CRA)

Software mit digitalem Risiko muss vor und während des  Einsatzes getestet werden

DORA (für Finanzwesen)

Stresstests & Resilienzprüfungen sind verpflichtend

Mann und Roboter analysieren Daten am digitalen Display – Symbol für KI-Co-Lead und innovative Mensch-KI-Kollaboration.
Führung als Team: Mensch und KI.

4. Wie können Unternehmen LLM-Systeme testen?

4.1 Die Vier Phasen eines LLM-Penetrationstests

Die Tests folgen vier Phasen — jede adressiert ein anderesRisiko:

Phase 1 – Business Understanding & Ist-Analyse

• Welche KI-Systeme existieren?
• Welche Daten verarbeiten sie?
• Welche Geschäftsrisiken entstehen bei Missbrauch?

Phase 2 – Threat Modeling & Testplanung

Methoden wie STRIDE/ATT&CK zur Modellierung:
Beispiele für reale Bedrohungsmodelle: (Auszug A1)
• Prompt Injection
• Credential & Data Leakage
• Halluzinationen mit geschäftsrelevanten Folgen
• Bias-Propagation
• Tool-Missbrauch (z. B. automatisierte Code-Execution)

Phase 3 – Test & Dokumentation

Tests erfolgen gezielt u. a. gegen
• API-Sicherheit
• Inferenz-Manipulation
• RAG-Manipulation
• Rollen- & Tool-Missbrauch
• Jailbreak-Resistenz

Phase 4 – Evaluation & Reporting

• Priorisierte Risikoeinschätzung
• Technische & organisatorische Handlungsempfehlungen
• Zeitplan für erneute Tests (Empfehlung: alle 6–12 Monate)

4.2. Risikoszenarien

Auswahl der kritischsten Szenarien:

Kategorie

Beispielrisiko

Konsequenz

LLM (Modell)

Prompt Injection

KI führt schädliche Anweisungen aus

Information Leakage

Modell gibt Trainings- / Kundendaten preis

Halluzinationen

Falsche, rechtlich riskante Aussagen

Ausführungsumgebung

Schutz von Modellgewichten/API fehlt

Industriespionage & IP-Diebstahl

unzureichende Ratenlimits

DDoS-ähnliche Überlastung durch missbräuchliche Nutzung

Bereitstellung

Public-Cloud-LLM ohne Mandantentrennung

Cross-Tenant-Leakage

 

Die zentrale Botschaft:
Wenn KI produktiv ohne Penetrationstesting eingesetzt wird, entsteht einSicherheits-Blindspot.

4.3. Schadensszenarien  — realistisch, teuer und oft unbemerkt

Auswahl:

Schadenskategorie

Beispiel

Reputationsschaden

KI gibt intern vertrauliche Info an Kunden aus

Rechtliches Risiko

KI erstellt diskriminierende Entscheidungsvorschläge

Wirtschaftlicher Schaden

KI exfiltriert proprietäre Produkte/Daten über API

Operativer Schaden

Automations-Agent führt irreversible Aktionen aus

Diese Schadensszenarien sind kein Science-Fiction —sie treten bereits real auf.

4.4. Empfehlung zur Tool-Auswahl

Folgende Tools sollten Sie in Ihrer Tool-Auswahl berücksichtigen:

Tool-Typ

Zweck

Beispiel

Threat Modeling

Modellierung von Angriffspfaden

STRIDE, MITRE ATT&CK

Adversarial Testing

Gezielte Manipulation von Eingaben

Garak, LLM-Guard

Bias-Analyse

Erkennung systematischer Verzerrungen

Aequitas

Prompt Injection Tests

Robustheit gegen Jailbreak & Manipulation

LLM-PI-Toolkit

API-Testing

Auth- & Zugriffsschutz

OWASP ZAP

Datenextraktionstests

Abwehr gegen Datenlecks

LLM-LeakCheck

Testautomatisierung

Skalierbare Attack-Simulation

Langfuse Security

Lasttests

Prüfung von Ratenlimit & Robustheit

Locust

5. Was ist jetzt konkret zu tun?

Mit dem „Leitfaden für Penetrationstests von Large-Language-Modellen (LLMs)“ hat der Expertenkreis KI-Sicherheit (Allianzfür Cybersicherheit / BSI) erstmals einen konsolidierten Standard fürLLM-Sicherheitsprüfungen veröffentlicht. Dieser Artikel greift die zentralenInhalte daraus auf und übersetzt sie in konkrete Handlungsoptionen fürUnternehmen.

Empfohlenes Vorgehen:

  1. Know-how     aus dem BSI-Leitfaden auf die eigene KI-Nutzung übertragen
        – Verantwortlichkeiten benennen, Risiken durchdenken, Scope definieren
  2. Bestandsaufnahme     aller KI-Systeme im Unternehmen
        – interne Systeme, SaaS-Tools, Agenten, Schatten-/Abteilungs-KI     berücksichtigen
  3. Risikoklassifizierung     und Priorisierung der KI-Systeme
        – nach Kritikalität der Prozesse und Sensibilität der Daten
  4. Regelmäßige     LLM-Penetrationstests — mindestens jährlich
        – bei kritischen Systemen zusätzlich release- oder anlassbezogen
  5. Maßnahmenplan     & Dokumentation für Compliance und Audits etablieren
        – Struktur: Findings → Maßnahmen → Verantwortliche → Terminierung →     Nachweis

Damit lässt sich genau die zentrale Lücke schließen, dieautonome KI-Angriffe heute ausnutzen:
fehlende Transparenz über KI-Systeme, fehlendes KI-Risikomanagement undfehlende KI-Sicherheitsprüfungen.

Wenn Unternehmen diese Schritte heute nicht einleiten, tutes morgen der Angreifer.

Fortbildung zu AI Co Leadership

Im zweistündigen KI-Kennenlern-Workshop lernen Sie,
wie sie prompten, welche KI Tools produktiv sind und wie sich AI Co Leadership Kompetenzkonkret in den Unternehmensalltag integrieren lässt.

Vielen Dank für Ihre Anfrage. Wir melden uns in Kürze bei Ihnen.
futuristic classroom setting
Ihre Anfrage hat uns nicht erreicht. Bitte kontaktieren Sie uns über die Kontaktmöglichkeiten auf der Kontaktseite.
Fußnoten


1