Vérification de sécurité pour vos systèmes d'IA

Les systèmes d'IA sont de plus en plus utilisés pour accroître l'efficacité, réduire les coûts, développer de nouveaux produits et services ou renforcer la position concurrentielle. Cependant, leur utilisation comporte des risques : des systèmes d'IA mal sécurisés ou mal entraînés peuvent divulguer accidentellement des informations sensibles, déclencher des actions imprévues ou produire des réponses inacceptables voire nuisibles, susceptibles de nuire à vos actifs ou à votre image, voire d'entraîner des conséquences juridiques.

Qu'est-ce que le Red Teaming pour GenAI ?

Imaginez qu’un acteur malveillant tente de manipuler le grand modèle de langage (LLM) que vous utilisez pour votre chatbot afin de divulguer des informations sensibles ou de générer des déclarations nuisibles à votre entreprise. C'est ici qu'intervient le Red Teaming. Dans le contexte de GenAI, le Red Teaming consiste à appliquer des attaques ciblées pour tester la vulnérabilité des modèles face à différentes menaces, comme :

  • Tentatives de contournement (jailbreak) : visant à désactiver les mécanismes de sécurité de l'IA pour la pousser à exécuter des actions non souhaitées.
  • Extraction de données : manipulation du modèle pour qu’il divulgue des informations sensibles issues de ses données d'entraînement.
  • Désinformation, hallucinations et biais : détection des erreurs, biais cognitifs ou informations incorrectes générées par le modèle.
  • Attaques par injection de prompts : modification malveillante de l'invite utilisateur pour manipuler ou détourner la réponse du modèle.

Malgré leurs spécificités, les tests de Red Teaming GenAI conservent leur principe de base : identifier des vecteurs d'attaque pertinents en combinant intelligemment les vulnérabilités, afin d'améliorer la sécurité et la robustesse du système testé.

Pourquoi tester vos systèmes d'IA ?

Même lorsque les systèmes d'IA utilisent uniquement des données publiques et ne disposent pas d'accès interne, ils reposent sur des modèles complexes capables de bien plus que ce que l'on imagine. Les raisons incluent :

  1. Entraînement sur des jeux de données massifs : les modèles sont formés sur une multitude de données issues du web, de livres, articles, médias sociaux, etc. Leur connaissance dépasse largement les informations spécifiques à votre entreprise.
  2. Nature générative des modèles : ils ne se contentent pas de restituer des réponses, mais en génèrent de nouvelles à partir du contexte, ce qui peut conduire à des affirmations fausses, biaisées ou nuisibles.
  3. Connaissances implicites et associations : les modèles apprennent aussi des schémas et opinions implicites contenus dans les données, ce qui peut générer des contenus inappropriés ou non représentatifs de votre organisation.
  4. Injection de prompts et contournements : des utilisateurs malveillants peuvent inciter l'IA à ignorer ses directives et produire des réponses inappropriées ou dangereuses.

Comment procédons-nous ?

Pour tester efficacement une IA générative, nous nous basons sur le guide OWASP GenAI Red Teaming, en suivant le processus suivant :

Notre approche comprend les étapes suivantes :

  1. Modélisation des menaces et analyse des risques : identification conjointe avec vos experts métiers des menaces pertinentes.
  2. Simulation des scénarios d’attaque : mise en œuvre des attaques définies pour tester la résilience et la sécurité du système.
  3. Évaluation de la sécurité : analyse de l’efficacité des mesures existantes et recommandations d’amélioration.

Nous combinons notre expertise en sécurité offensive et en Red Teaming avec les avantages des modèles d’IA générative pour optimiser l'efficacité. Voir aussi notre article : “Red Teaming efficace des LLM avec PyRIT”.

Contactez-nous

Vos systèmes GenAI sont probablement plus vulnérables que vous ne le pensez ! Laissez-nous vous montrer les failles potentielles et comment les corriger ensemble. Contactez-nous !

Articles de blog sur le Red Teaming de l'IA Générative

Bevor der Chatbot live geht: LLM Red Teaming am Beispiel von Apertus Oct 9, 2025

Im meinem letzten Blogbeitrag, Red Teaming LLM with PyRIT, haben wir die Grundlagen und die Notwendigkeit des Red Teamings für grosse Sprachmodelle (LLMs) beleuchtet. Nun gehen wir einen Schritt weiter. Anlässlich meines Vortrags bei der BotWerkstatt im Rahmen der Swiss AI Weeks habe ich ein praktisches Werkzeug in Form eines Jupyter Notebooks entwickelt. Dieses ermöglicht es, die Sicherheit von LLMs – in diesem Fall das neue Schweizer Modells Apertus – automatisiert zu testen. Dieser Artikel führt durch den Aufbau und die Funktionsweise und zeigt, wie wir mit gezielten Angriffen die Leitplanken eines Chatbots systematisch auf die Probe stellen können.

Lire l'article

Bevor Ihr KI-Chatbot live geht: Warum LLM Red Teaming unverzichtbar ist Sep 11, 2025

Was passiert, wenn Ihr Chatbot plötzlich unpassende, beleidigende oder sogar rechtlich fragwürdige Antworten liefert? Die potenziellen Konsequenzen können verheerend sein. Genau hier kommt das LLM Red Teaming ins Spiel – ein entscheidender Schritt, den jedes Unternehmen vor der Implementierung eines KI-gestützten Kundenservice ernst nehmen sollte. Lernen Sie in diesem kurzen Blogpost mehr dazu.

Lire l'article

FINMA: KI – Balanceakt zwischen Chance und Risiko Apr 4, 2025

Im Finanzgeschäft der Schweiz – also im Bereich der Banken und Versicherungen – wird Künstliche Intelligenz immer stärker genutzt. So wird beispielsweise in den Bereichen der Handelsüberwachung, der Fraud Detection, der Kreditrisiko-Beurteilung oder der Geldwäschereibekämpfung auf neue, KI-gestützte Systeme vertraut. Gemäss FINMA Aufsichtsmitteilung 08/2024 erwartet diese «von beaufsichtigten Instituten, die KI einsetzen, dass sie die Auswirkungen dieses Einsatzes auf ihr Risikoprofil aktiv berücksichtigen und ihre Governance, ihr Risikomanagement und ihre Kontrollsysteme entsprechend ausrichten.» Lesen Sie hier, wie Unternehmen diese Entwicklung mitmachen und mitgestalten und Innovation mit den Unternehmensrisiken im Gleichgewicht halten können.

Lire l'article

Effizientes LLM Red Teaming dank offensivem LLM und PyRIT Mar 10, 2025

Die rasante Entwicklung von Large Language Models (LLMs) revolutioniert aktuell viele Bereiche unseres Lebens. Von der Automatisierung der Kundenkommunikation bis hin zur Unterstützung bei der Softwareentwicklung – ihre Einsatzmöglichkeiten scheinen schier unbegrenzt. Doch mit der wachsenden Verbreitung von LLMs steigt auch die Notwendigkeit, ihre Sicherheit und Robustheit zu gewährleisten. Eine bewährte Methode, um Sicherheitslücken und Schwachstellen in KI-Systemen zu identifizieren, ist Red Teaming. In diesem Blog-Artikel werfen wir einen Blick auf das Konzept des Red Teaming für LLMs und stellen zwei Beispielangriffe mittels PyRIT vor. Dieses Open-Source-Tool von Microsoft zur systematischen Evaluierung von KI-Modellen kann zur Angriffsunterstützung und Optimierung der offensiven Promt-Generierung selbst ein LLM als Verstärkung beiziehen, woraus ein höchst effizienter Prüfansatz resultiert.

Lire l'article

GenAI Red Teaming Guide von OWASP im Fokus Feb 7, 2025

Künstliche Intelligenz (KI) ist längst nicht mehr nur in Tools wie ChatGPT zu finden – sie ist inzwischen fester Bestandteil gängiger Applikationen und alltäglicher Services – von automatisierten Kundenservices bis zu intelligenten Assistenten und generativen Modellen, die Inhalte direkt in einer Applikation erstellen oder optimieren. Doch mit dieser umfassenden Einbindung steigt auch das Sicherheitsrisiko: Denn generative Modelle in Applikationen sind anfällig für Manipulationen, Datenlecks, Halluzinationen und unkontrollierbare Systemreaktionen.
Wer sich blind auf seine KI-gestützten Systeme verlässt, riskiert Sicherheitslücken und unerwartete Bedrohungen und trägt damit zur Schwächung der Gesamtsicherheit seines Services bei. Doch jetzt gibt es eine neue Orientierungshilfe: der OWASP GenAI Red Teaming Guide. Dieser bietet eine Hilfestellung für gezielte Sicherheitsanalysen generativer KI-Modelle und zeigt, wie Sicherheitsrisiken systematisch identifiziert werden können. Doch was bedeutet das für Unternehmen konkret? Und wie können Sie sicherstellen, dass Ihre KI-Systeme nicht selbst zur Schwachstelle werden?

Lire l'article

Generative KI und Risiko-Management: Ein Leitfaden basierend auf NIST AI 100-1 Jan 14, 2025

Immer mehr Mitarbeitende nutzen generative KI – teilweise ohne das Wissen ihres Arbeitgebers. Dadurch entsteht eine Vielzahl von Risiken, die es zu adressieren gilt. Das National Institute of Standards and Technology (NIST) hat im Januar 2023 mit dem «Artificial Intelligence Risk Management Framework» (AI RMF 1.0, Publikation «NIST AI 100-1»), einen umfassenden Rahmen zur Bewertung und Minderung solcher Risiken vorgelegt. Der im Juli 2024 publizierte Leitfaden «Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile» (Publikation «NIST AI 600-1») schlägt Aktionen zur Risikoreduktion vor. Lesen Sie hier, wie Sie Ihr Risikomanagement dieser Entwicklung anpassen, was es zu berücksichtigen gilt und welche Massnahmen Sie umsetzen können.

Lire l'article

ChatGPT – Was kann da schon passieren? Nov 28, 2024

Immer mehr Mitarbeitende greifen auf KI-Tools wie ChatGPT zurück, um ihre täglichen Aufgaben schneller zu erledigen. Sie nutzen Künstliche Intelligenz (KI), um E-Mails zu verfassen, Präsentationen zu erstellen oder komplexe Sachverhalte zu recherchieren. Teilweise sparen sie sich dadurch Stunden an manueller Arbeit. Oft geschieht dies ohne das Wissen oder die Zustimmung des Arbeitgebers. Diese sogenannte «Schatten-KI» birgt eine Vielzahl von Gefahren, die Unternehmen oft unterschätzen. Erfahren Sie in diesem Artikel, welche die wichtigsten sind und was Sie zu deren Reduzierung machen sollten.

Lire l'article

KI-Gesetz (AI Act) der EU tritt in Kraft Sep 27, 2024

Der von der Europäischen Union erlassene Artificial Intelligence Act (Verordnung 2024/1689 zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz) stellt einen wegweisenden Schritt in der Regulierung von AI-Systemen in Europa und darüber hinaus dar. Als einer der ersten umfassenden Versuche, AI zu regeln, legt der AI Act einen Rahmen fest, den Unternehmen, die mit dem EU-Markt interagieren oder dort tätig sind, einhalten müssen. In diesem Blogartikel lernen Sie die wesentlichen Aspekte des AI Acts kennen. Verschaffen Sie sich einen Überblick über die verschiedenen Risikokategorien, die der Act festlegt – und erfahren Sie, ob Ihre Produkte oder Dienstleistungen unter die KI-Verordnung fallen und was dies für Ihr Unternehmen bedeutet.

Lire l'article

Offensive Security mittels KI Aug 9, 2024

Künstliche Intelligenz (KI) bzw. Artificial Intelligence (AI) ist nicht mehr nur ein Schlagwort, sondern hält Einzug in verschiedene Bereiche unseres Lebens – einschliesslich der Cyber-Sicherheit. Insbesondere im Bereich der offensiven Sicherheit bietet KI ein enormes Potenzial, um die Widerstandsfähigkeit von Unternehmen gegen Cyber-Angriffe zu stärken. In diesem Beitrag werfen wir einen Blick auf die wichtigsten Erkenntnisse des kürzlich veröffentlichten Papers «Using AI for Offensive Security» der Cloud Security Alliance (CSA), an dem unser Head of Innovation & Development, Sven Vetsch, als Lead Author massgeblich beteiligt war. Erfahren Sie mehr über die Chancen und Herausforderungen der KI-gestützten offensiven Sicherheit, die wichtigsten Anwendungsfälle und wie Sie KI effektiv in die Sicherheitsstrategien Ihres Unternehmens integrieren.

Lire l'article