Sicherheitsüberprüfung für Ihre KI-Systeme

KI-Systeme werden immer öfter eingesetzt, um Effizienz zu steigern, Kosten zu senken, neue Produkte und Dienstleistungen zu entwickeln oder die Wettbewerbsposition zu stärken. Doch deren Einsatz von bringt auch Risiken mit sich: So können unzureichend gesicherte oder schlecht trainierte KI-Systeme unabsichtlich vertrauliche Informationen preisgeben, unvorhergesehene Aktionen auslösen oder inakzeptable oder gar schädliche Antworten geben, die Ihren Assets oder ihrem Image schaden können und im schlimmsten Fall rechtliche Konsequenzen nach sich ziehen.

Was ist Red Teaming für GenAI?

Stellen Sie sich vor, ein bösartiger Akteur versucht, das Large Language Model (LLM), dass Sie für Ihren Chatbot verwenden, dazu zu bringen, sensible Informationen preiszugeben oder für Ihr Unternehmen schädliche Aussagen zu generieren. Genau hier kommt Red Teaming ins Spiel. Im Kontext von GenAI bedeutet Red Teaming, dass speziell entwickelte Angriffe genutzt werden, um Modelle auf ihre Anfälligkeit gegenüber verschiedenen Bedrohungen zu prüfen. Dazu gehören:

  • Jailbreak-Versuche: Hierbei wird versucht, die vordefinierten Sicherheitsmechanismen der KI zu umgehen, um es zu unerwünschten Handlungen zu bringen.
  • Datenextraktion: Ziel ist es, die KI dazu zu bringen, sensible Informationen preiszugeben, die in seinen Trainingsdaten enthalten sein könnten.
  • Fehlinformationen, Halluzinationen und Bias: KI-Systeme können Fehler machen, falsche Informationen generieren oder Vorurteile in ihren Antworten widerspiegeln, die hier aufgedeckt werden.
  • Prompt-Injection-Angriffe: Durch geschickte Manipulation der Eingabeaufforderung (Prompt) wird versucht, die KI zu verwirren oder zu manipulieren, wodurch unerwünschte oder unvorhergesehene Aktionen ausgelöst werden.

Trotz der genannten Unterschiede bleibt der Kern des Red Teaming-Konzepts auch bei der Prüfung von GenAI erhalten: Es geht darum, durch das Aufdecken und geschickte Kombinieren von Schwachstellen relevante Angriffspfade zu identifizieren, welche helfen, ein bestimmtes Ziel zu erreichen und so die Sicherheit und Robustheit eines Systems zu verbessern.

Wieso sollten auch Sie Ihre KI-Systeme überprüfen lassen?

Auch wenn KI-Systeme nur öffentliche Daten nutzen und keinen Zugriff auf interne Funktionen haben, basieren sie immer auf komplexen Modellen. Diese Modelle wissen und können automatisch mehr, als man zunächst denkt. Gründe dafür sind beispielsweise:

  1. Training auf riesigen, externen Datensätzen: Generative KI-Modelle werden auf extrem grossen und vielfältigen Datensätzen trainiert, die ein sehr grosses Spektrum an verfügbarem Wissen umfassen. Dazu gehören Webseiten aller Art, Bücher, Artikel, soziale Medien und vieles mehr. Dieses breite Wissen ermöglicht es den Modellen, kontextbezogene und informative Antworten zu generieren, geht aber auch weit über die Informationen hinaus, welche spezifisch durch Ihre Unternehmung hinzugefügt wurden.
  2. Generative Natur der Modelle: Generative Modelle rufen nicht einfach nur vorab gespeicherte Antworten ab, sondern generieren neue Texte auf Basis ihres Wissens und der Nutzereingabe sowie vielleicht auch dem Gesprächsverlauf. Diese Fähigkeit ist ihre Stärke, birgt aber auch die Gefahr, dass die Modelle Schlüsse aus ihrem breiten Wissensschatz ziehen, die irrelevant, irreführend, falsch, voreingenommen oder sogar schädlich sein können.
  3. Implizites Wissen und Assoziationen: Während des Trainings lernen generative KI-Modelle nicht nur Fakten, sondern auch subtile Muster, Assoziationen und Meinungen, die in den Trainingsdaten enthalten sind. Dies kann dazu führen, dass die Modelle unbeabsichtigt Aussagen treffen, die nicht die offizielle Haltung Ihres Unternehmens widerspiegeln oder sogar negative Stereotypen oder Vorurteile enthalten.
  4. Prompt Injection und Jailbreaking: Böswillige Akteure können versuchen, Generative KI-Modelle durch speziell formulierte Prompts (Prompt Injection) dazu zu bringen, ihre eigentlichen Anweisungen zu ignorieren und unerwünschte oder schädliche Aussagen zu generieren (Jailbreaking). Dies kann bei einem LLM-basierten Chatbot z. B. dazu führen, dass dieser sensible Informationen preisgibt, beleidigende Kommentare abgibt oder Anweisungen zu illegalen Aktivitäten gibt – alles Dinge, die Ihr Unternehmen niemals öffentlich vertreten würde.

Wieso sollten auch Sie Ihre KI-Systeme überprüfen lassen?

Um eine generative KI effizient auf die vorherig aufgeführten Prüfpunkte hin zu testen, orientieren wir uns am OWASP GenAI Red Teaming Guide gemäss folgendem Prozess:

Unser Vorgehen gliedert sich dabei in die folgenden Schritte:

  1. Bedrohungsmodellierung und Risikoanalyse: Systematische Identifikation relevanter Bedrohungen und Schwachstellen in generativen KI-Anwendungen zusammen mit Ihren Fachspezialisten.
  2. Durchführung von entsprechenden Angriffsszenarien: Simulation der vorgängig definierten Angriffe auf Ihre KI-Systeme, um deren Reaktionsfähigkeit und Sicherheitsmechanismen zu prüfen.
  3. Bewertung der Implementierung und Systemintegration: Basierend auf den Ergebnissen des vorherigen Schrittes können bestehende Sicherheitsmassnahmen bewertet und deren Effektivität und Wirksamkeit eingeordnet sowie Empfehlungen zur Verbesserung und Weiterentwicklung abgegeben werden.

Für die Durchführung und die Simulation von Angriffsszenarien nutzen wir dabei nicht nur die jahrelange Erfahrung von unseren Sicherheitsexperten im Bereich Security Testing und Red Teaming, sondern selbst auch auf die Vorteile von generativen KI-Modellen zur Effizienzsteigerung und Optimierung. Nähere Details können in dem Artikel “Effizientes LLM Red Teaming dank offensivem LLM und PyRIT” gefunden werden.

Kontaktieren Sie uns

Ihre generativen KI-Systeme sind sehr wahrscheinlich anfälliger, als Sie denken! Lassen Sie uns Ihnen aufzeigen, wo die Probleme liegen könnten und wie wir gemeinsam Ihre GenAI-Systeme sicherer machen können. Kontaktieren Sie uns!

GenAI Red Teaming Blog Posts

FINMA: KI – Balanceakt zwischen Chance und Risiko Apr 4, 2025

Im Finanzgeschäft der Schweiz – also im Bereich der Banken und Versicherungen – wird Künstliche Intelligenz immer stärker genutzt. So wird beispielsweise in den Bereichen der Handelsüberwachung, der Fraud Detection, der Kreditrisiko-Beurteilung oder der Geldwäschereibekämpfung auf neue, KI-gestützte Systeme vertraut. Gemäss FINMA Aufsichtsmitteilung 08/2024 erwartet diese «von beaufsichtigten Instituten, die KI einsetzen, dass sie die Auswirkungen dieses Einsatzes auf ihr Risikoprofil aktiv berücksichtigen und ihre Governance, ihr Risikomanagement und ihre Kontrollsysteme entsprechend ausrichten.» Lesen Sie hier, wie Unternehmen diese Entwicklung mitmachen und mitgestalten und Innovation mit den Unternehmensrisiken im Gleichgewicht halten können.

Blog-Post lesen

Effizientes LLM Red Teaming dank offensivem LLM und PyRIT Mar 10, 2025

Die rasante Entwicklung von Large Language Models (LLMs) revolutioniert aktuell viele Bereiche unseres Lebens. Von der Automatisierung der Kundenkommunikation bis hin zur Unterstützung bei der Softwareentwicklung – ihre Einsatzmöglichkeiten scheinen schier unbegrenzt. Doch mit der wachsenden Verbreitung von LLMs steigt auch die Notwendigkeit, ihre Sicherheit und Robustheit zu gewährleisten. Eine bewährte Methode, um Sicherheitslücken und Schwachstellen in KI-Systemen zu identifizieren, ist Red Teaming. In diesem Blog-Artikel werfen wir einen Blick auf das Konzept des Red Teaming für LLMs und stellen zwei Beispielangriffe mittels PyRIT vor. Dieses Open-Source-Tool von Microsoft zur systematischen Evaluierung von KI-Modellen kann zur Angriffsunterstützung und Optimierung der offensiven Promt-Generierung selbst ein LLM als Verstärkung beiziehen, woraus ein höchst effizienter Prüfansatz resultiert.

Blog-Post lesen

GenAI Red Teaming Guide von OWASP im Fokus Feb 7, 2025

Künstliche Intelligenz (KI) ist längst nicht mehr nur in Tools wie ChatGPT zu finden – sie ist inzwischen fester Bestandteil gängiger Applikationen und alltäglicher Services – von automatisierten Kundenservices bis zu intelligenten Assistenten und generativen Modellen, die Inhalte direkt in einer Applikation erstellen oder optimieren. Doch mit dieser umfassenden Einbindung steigt auch das Sicherheitsrisiko: Denn generative Modelle in Applikationen sind anfällig für Manipulationen, Datenlecks, Halluzinationen und unkontrollierbare Systemreaktionen.
Wer sich blind auf seine KI-gestützten Systeme verlässt, riskiert Sicherheitslücken und unerwartete Bedrohungen und trägt damit zur Schwächung der Gesamtsicherheit seines Services bei. Doch jetzt gibt es eine neue Orientierungshilfe: der OWASP GenAI Red Teaming Guide. Dieser bietet eine Hilfestellung für gezielte Sicherheitsanalysen generativer KI-Modelle und zeigt, wie Sicherheitsrisiken systematisch identifiziert werden können. Doch was bedeutet das für Unternehmen konkret? Und wie können Sie sicherstellen, dass Ihre KI-Systeme nicht selbst zur Schwachstelle werden?

Blog-Post lesen

Generative KI und Risiko-Management: Ein Leitfaden basierend auf NIST AI 100-1 Jan 14, 2025

Immer mehr Mitarbeitende nutzen generative KI – teilweise ohne das Wissen ihres Arbeitgebers. Dadurch entsteht eine Vielzahl von Risiken, die es zu adressieren gilt. Das National Institute of Standards and Technology (NIST) hat im Januar 2023 mit dem «Artificial Intelligence Risk Management Framework» (AI RMF 1.0, Publikation «NIST AI 100-1»), einen umfassenden Rahmen zur Bewertung und Minderung solcher Risiken vorgelegt. Der im Juli 2024 publizierte Leitfaden «Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile» (Publikation «NIST AI 600-1») schlägt Aktionen zur Risikoreduktion vor. Lesen Sie hier, wie Sie Ihr Risikomanagement dieser Entwicklung anpassen, was es zu berücksichtigen gilt und welche Massnahmen Sie umsetzen können.

Blog-Post lesen

ChatGPT – Was kann da schon passieren? Nov 28, 2024

Immer mehr Mitarbeitende greifen auf KI-Tools wie ChatGPT zurück, um ihre täglichen Aufgaben schneller zu erledigen. Sie nutzen Künstliche Intelligenz (KI), um E-Mails zu verfassen, Präsentationen zu erstellen oder komplexe Sachverhalte zu recherchieren. Teilweise sparen sie sich dadurch Stunden an manueller Arbeit. Oft geschieht dies ohne das Wissen oder die Zustimmung des Arbeitgebers. Diese sogenannte «Schatten-KI» birgt eine Vielzahl von Gefahren, die Unternehmen oft unterschätzen. Erfahren Sie in diesem Artikel, welche die wichtigsten sind und was Sie zu deren Reduzierung machen sollten.

Blog-Post lesen

KI-Gesetz (AI Act) der EU tritt in Kraft Sep 27, 2024

Der von der Europäischen Union erlassene Artificial Intelligence Act (Verordnung 2024/1689 zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz) stellt einen wegweisenden Schritt in der Regulierung von AI-Systemen in Europa und darüber hinaus dar. Als einer der ersten umfassenden Versuche, AI zu regeln, legt der AI Act einen Rahmen fest, den Unternehmen, die mit dem EU-Markt interagieren oder dort tätig sind, einhalten müssen. In diesem Blogartikel lernen Sie die wesentlichen Aspekte des AI Acts kennen. Verschaffen Sie sich einen Überblick über die verschiedenen Risikokategorien, die der Act festlegt – und erfahren Sie, ob Ihre Produkte oder Dienstleistungen unter die KI-Verordnung fallen und was dies für Ihr Unternehmen bedeutet.

Blog-Post lesen

Offensive Security mittels KI Aug 9, 2024

Künstliche Intelligenz (KI) bzw. Artificial Intelligence (AI) ist nicht mehr nur ein Schlagwort, sondern hält Einzug in verschiedene Bereiche unseres Lebens – einschliesslich der Cyber-Sicherheit. Insbesondere im Bereich der offensiven Sicherheit bietet KI ein enormes Potenzial, um die Widerstandsfähigkeit von Unternehmen gegen Cyber-Angriffe zu stärken. In diesem Beitrag werfen wir einen Blick auf die wichtigsten Erkenntnisse des kürzlich veröffentlichten Papers «Using AI for Offensive Security» der Cloud Security Alliance (CSA), an dem unser Head of Innovation & Development, Sven Vetsch, als Lead Author massgeblich beteiligt war. Erfahren Sie mehr über die Chancen und Herausforderungen der KI-gestützten offensiven Sicherheit, die wichtigsten Anwendungsfälle und wie Sie KI effektiv in die Sicherheitsstrategien Ihres Unternehmens integrieren.

Blog-Post lesen