Prompt Hacking: Anstiften, Verführen, Manipulieren – Wenn Sprachmodelle mehr preisgeben, als sie sollten
Der Vortrag „Prompt Hacking: Anstiften, Verführen, Manipulieren – Wenn Sprachmodelle mehr preisgeben, als sie sollten“ von Marco Di Filippo auf der IT-SA 2025 in Nürnberg verspricht, diese Grenze zwischen Nutzen und Missbrauch sichtbar zu machen – und zwar mit Praxisbezug, technischer Tiefe und Bewusstsein für die Gefährdung. In diesem Blogbeitrag möchte ich Sie dafür begeistern, diesen Vortrag zu besuchen – und Ihnen zeigen, was Sie mitnehmen können.
Wer ist Marco Di Filippo?
Marco Di Filippo ist als Senior Cyber Security Engineer bei der whitelisthackers GmbH tätig. Als Experte für Penetration Testing und Cyber Defense hat er mehrjährige Erfahrung im Bereich der IT-Sicherheitsbranche.
Seine berufliche Laufbahn erstreckt sich über mehr als zwei Jahrzehnte im IT-Consulting und in der Informationssicherheit, mit Stationen bei namhaften Security-Dienstleistern. Sein Fokus liegt dabei auf organisatorischen und technischen Sicherheitsprüfungen und offensive security. Er legt besonderen Wert auf die Sensibilisierung der Öffentlichkeit und neue Angriffsflächen im Bereich von KI und Sprachmodellen. Damit bewegt er sich am Puls aktueller Bedrohungen. Gerade wenn es darum geht, wie Sprachmodelle missbraucht werden können und wie man sich gegen solche Angriffe wappnet, ist Marco Di Filippo jemand, der nicht nur spricht, sondern in seinen Vorträgen auch Verständnis vermittelt und praktisch demonstriert.
Was ist Prompt Hacking?
Eine besondere Gefahr im Umgang mit KI-Systemen ist das sogenannte Prompt Hacking (auch: Prompt Injection). Dabei versuchen Angreifer, durch gezielte Eingaben („Prompts“) die KI dazu zu bringen, Sicherheitsmechanismen zu umgehen oder vertrauliche Informationen preiszugeben.
Dies ist keine theoretische Bedrohung mehr, sondern eine tatsächlich beobachtete Angriffsmethode, die auch in Kanzleien erhebliche Risiken birgt. Angreifer nutzen dabei nicht technische Schwachstellen, sondern Sprache als Angriffsvektor: Schon scheinbar harmlose Eingaben können dazu führen, dass eine KI sicherheitsrelevante Informationen offenlegt oder unerwünschte Handlungen ausführt.
Für die Unternehmer bedeutet dies:
- Jede Eingabe in ein KI-System ist kritisch zu hinterfragen.
- Vertrauliche Daten dürfen niemals in Prompts eingegeben werden, wenn nicht ausdrücklich zugelassen.
- Mitarbeitende müssen sich bewusst sein, dass Manipulationen über Sprache eine reale Gefahr darstellen und entsprechende Vorsicht walten lassen.
Die Abwehr von Prompt Hacking erfordert daher nicht nur technische Schutzmaßnahmen, sondern auch Sensibilisierung und Schulung der Mitarbeitenden.
Was muss man beachten, wenn man KI einsetzt?
Sprachschnittstellen in modernen Systemen greifen auf Kontexte bisheriger Aufgaben, Nutzungsverläufe, persönliche Daten oder interne Prozesse zu. Ein geschickt manipulierter Prompt oder eine auch nur subtile Änderung der Eingabe kann jedoch Sprachmodelle dazu bringen, völlig anders zu reagieren als vorhergesehen. Schlimmstenfalls folgt das Programm nun einer schädlichen Anweisung, aufgrund derer Daten preisgegeben oder Funktionen manipuliert werden.
Der Vortrag zielt darauf ab, diese Angriffsvektoren nicht nur zu benennen, sondern zu verstehen – sprachlich, technisch und in der Risikoabschätzung.
Wenn Sie Systeme betreiben, die auf Sprachmodelle setzen – ob Chatbot, Assistenzsystem, Sprachsteuerung oder kontextgesteuerte Automatisierung – dann eröffnet dieser Vortrag eine seltene Chance: Sie lernen nicht nur, wo die Gefahren liegen, sondern wie sie konkret aussehen und wie man sie abwehrt. Am Ende haben Sie nicht nur theoretisches Wissen, sondern konkrete Ansätze, um Ihre Systeme resilienter gegenüber sprachbasierten Angriffen zu machen.
Neugierig geworden? Kommen Sie auf den Stand der whitelisthackers, IT-SA 2025 in Nürnberg.