Security Assessment for Your AI Systems

AI systems are increasingly used to improve efficiency, reduce costs, develop new products and services, and strengthen market positions. However, their deployment comes with risks: poorly secured or inadequately trained systems can unintentionally leak confidential information, trigger unexpected actions, or produce harmful or inappropriate responses that damage your assets or reputation — and may even have legal consequences.

What is Red Teaming for GenAI?

Imagine a malicious actor trying to manipulate the large language model (LLM) you use for your chatbot into revealing sensitive information or generating statements that could harm your company. That’s where red teaming comes in. In the context of GenAI, red teaming involves applying targeted attacks to assess how vulnerable models are to different threats, such as:

  • Jailbreak attempts: trying to bypass safety mechanisms in the AI to get it to act in unintended ways.
  • Data extraction: manipulating the model to expose sensitive training data.
  • Misinformation, hallucinations, and bias: identifying errors, misleading outputs, or biased content in model responses.
  • Prompt injection attacks: subtly manipulating user input to confuse or mislead the model into undesirable behavior.

Despite the differences, the core of red teaming remains the same: by exposing and combining vulnerabilities, relevant attack paths are identified that help improve a system’s security and robustness.

Why Should You Test Your AI Systems?

Even if your AI systems only use public data and have no internal access, they are still built on highly complex models — which often know and do more than expected. Reasons include:

  1. Training on massive, external datasets: Generative AI models are trained on vast and diverse sources, including websites, books, articles, and social media. Their knowledge often extends far beyond your organization’s intended input.
  2. Generative nature of models: These models create new content rather than retrieve predefined answers, which can result in misleading, biased, or even harmful conclusions.
  3. Implicit knowledge and associations: During training, models learn patterns, associations, and opinions that can lead to unintended, unrepresentative, or even offensive outputs.
  4. Prompt injection and jailbreaking: Malicious actors may craft prompts to override instructions and cause harmful or unwanted behaviors — like revealing sensitive info or giving illegal advice.

How Do We Test Your Systems?

To efficiently test generative AI systems, we follow the OWASP GenAI Red Teaming Guide using the following approach:

Our process consists of these key steps:

  1. Threat modeling and risk analysis: Systematically identifying potential threats and vulnerabilities with your domain experts.
  2. Execution of targeted attack scenarios: Simulating the defined attacks to assess your AI systems’ defenses and reactions.
  3. Implementation and integration assessment: Evaluating existing security controls and suggesting improvements based on test results.

Our security experts combine years of experience in red teaming with the benefits of using generative AI to enhance and accelerate offensive testing. Learn more in our article: “Efficient LLM Red Teaming with Offensive LLM and PyRIT”.

Contact Us

Your GenAI systems are likely more vulnerable than you think! Let us help you identify potential risks and improve their security — together. Contact us!

GenAI Red Teaming Blog Posts

FINMA: KI – Balanceakt zwischen Chance und Risiko Apr 4, 2025

Im Finanzgeschäft der Schweiz – also im Bereich der Banken und Versicherungen – wird Künstliche Intelligenz immer stärker genutzt. So wird beispielsweise in den Bereichen der Handelsüberwachung, der Fraud Detection, der Kreditrisiko-Beurteilung oder der Geldwäschereibekämpfung auf neue, KI-gestützte Systeme vertraut. Gemäss FINMA Aufsichtsmitteilung 08/2024 erwartet diese «von beaufsichtigten Instituten, die KI einsetzen, dass sie die Auswirkungen dieses Einsatzes auf ihr Risikoprofil aktiv berücksichtigen und ihre Governance, ihr Risikomanagement und ihre Kontrollsysteme entsprechend ausrichten.» Lesen Sie hier, wie Unternehmen diese Entwicklung mitmachen und mitgestalten und Innovation mit den Unternehmensrisiken im Gleichgewicht halten können.

Read full post

Effizientes LLM Red Teaming dank offensivem LLM und PyRIT Mar 10, 2025

Die rasante Entwicklung von Large Language Models (LLMs) revolutioniert aktuell viele Bereiche unseres Lebens. Von der Automatisierung der Kundenkommunikation bis hin zur Unterstützung bei der Softwareentwicklung – ihre Einsatzmöglichkeiten scheinen schier unbegrenzt. Doch mit der wachsenden Verbreitung von LLMs steigt auch die Notwendigkeit, ihre Sicherheit und Robustheit zu gewährleisten. Eine bewährte Methode, um Sicherheitslücken und Schwachstellen in KI-Systemen zu identifizieren, ist Red Teaming. In diesem Blog-Artikel werfen wir einen Blick auf das Konzept des Red Teaming für LLMs und stellen zwei Beispielangriffe mittels PyRIT vor. Dieses Open-Source-Tool von Microsoft zur systematischen Evaluierung von KI-Modellen kann zur Angriffsunterstützung und Optimierung der offensiven Promt-Generierung selbst ein LLM als Verstärkung beiziehen, woraus ein höchst effizienter Prüfansatz resultiert.

Read full post

GenAI Red Teaming Guide von OWASP im Fokus Feb 7, 2025

Künstliche Intelligenz (KI) ist längst nicht mehr nur in Tools wie ChatGPT zu finden – sie ist inzwischen fester Bestandteil gängiger Applikationen und alltäglicher Services – von automatisierten Kundenservices bis zu intelligenten Assistenten und generativen Modellen, die Inhalte direkt in einer Applikation erstellen oder optimieren. Doch mit dieser umfassenden Einbindung steigt auch das Sicherheitsrisiko: Denn generative Modelle in Applikationen sind anfällig für Manipulationen, Datenlecks, Halluzinationen und unkontrollierbare Systemreaktionen.
Wer sich blind auf seine KI-gestützten Systeme verlässt, riskiert Sicherheitslücken und unerwartete Bedrohungen und trägt damit zur Schwächung der Gesamtsicherheit seines Services bei. Doch jetzt gibt es eine neue Orientierungshilfe: der OWASP GenAI Red Teaming Guide. Dieser bietet eine Hilfestellung für gezielte Sicherheitsanalysen generativer KI-Modelle und zeigt, wie Sicherheitsrisiken systematisch identifiziert werden können. Doch was bedeutet das für Unternehmen konkret? Und wie können Sie sicherstellen, dass Ihre KI-Systeme nicht selbst zur Schwachstelle werden?

Read full post

Generative KI und Risiko-Management: Ein Leitfaden basierend auf NIST AI 100-1 Jan 14, 2025

Immer mehr Mitarbeitende nutzen generative KI – teilweise ohne das Wissen ihres Arbeitgebers. Dadurch entsteht eine Vielzahl von Risiken, die es zu adressieren gilt. Das National Institute of Standards and Technology (NIST) hat im Januar 2023 mit dem «Artificial Intelligence Risk Management Framework» (AI RMF 1.0, Publikation «NIST AI 100-1»), einen umfassenden Rahmen zur Bewertung und Minderung solcher Risiken vorgelegt. Der im Juli 2024 publizierte Leitfaden «Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile» (Publikation «NIST AI 600-1») schlägt Aktionen zur Risikoreduktion vor. Lesen Sie hier, wie Sie Ihr Risikomanagement dieser Entwicklung anpassen, was es zu berücksichtigen gilt und welche Massnahmen Sie umsetzen können.

Read full post

ChatGPT – Was kann da schon passieren? Nov 28, 2024

Immer mehr Mitarbeitende greifen auf KI-Tools wie ChatGPT zurück, um ihre täglichen Aufgaben schneller zu erledigen. Sie nutzen Künstliche Intelligenz (KI), um E-Mails zu verfassen, Präsentationen zu erstellen oder komplexe Sachverhalte zu recherchieren. Teilweise sparen sie sich dadurch Stunden an manueller Arbeit. Oft geschieht dies ohne das Wissen oder die Zustimmung des Arbeitgebers. Diese sogenannte «Schatten-KI» birgt eine Vielzahl von Gefahren, die Unternehmen oft unterschätzen. Erfahren Sie in diesem Artikel, welche die wichtigsten sind und was Sie zu deren Reduzierung machen sollten.

Read full post

KI-Gesetz (AI Act) der EU tritt in Kraft Sep 27, 2024

Der von der Europäischen Union erlassene Artificial Intelligence Act (Verordnung 2024/1689 zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz) stellt einen wegweisenden Schritt in der Regulierung von AI-Systemen in Europa und darüber hinaus dar. Als einer der ersten umfassenden Versuche, AI zu regeln, legt der AI Act einen Rahmen fest, den Unternehmen, die mit dem EU-Markt interagieren oder dort tätig sind, einhalten müssen. In diesem Blogartikel lernen Sie die wesentlichen Aspekte des AI Acts kennen. Verschaffen Sie sich einen Überblick über die verschiedenen Risikokategorien, die der Act festlegt – und erfahren Sie, ob Ihre Produkte oder Dienstleistungen unter die KI-Verordnung fallen und was dies für Ihr Unternehmen bedeutet.

Read full post

Offensive Security mittels KI Aug 9, 2024

Künstliche Intelligenz (KI) bzw. Artificial Intelligence (AI) ist nicht mehr nur ein Schlagwort, sondern hält Einzug in verschiedene Bereiche unseres Lebens – einschliesslich der Cyber-Sicherheit. Insbesondere im Bereich der offensiven Sicherheit bietet KI ein enormes Potenzial, um die Widerstandsfähigkeit von Unternehmen gegen Cyber-Angriffe zu stärken. In diesem Beitrag werfen wir einen Blick auf die wichtigsten Erkenntnisse des kürzlich veröffentlichten Papers «Using AI for Offensive Security» der Cloud Security Alliance (CSA), an dem unser Head of Innovation & Development, Sven Vetsch, als Lead Author massgeblich beteiligt war. Erfahren Sie mehr über die Chancen und Herausforderungen der KI-gestützten offensiven Sicherheit, die wichtigsten Anwendungsfälle und wie Sie KI effektiv in die Sicherheitsstrategien Ihres Unternehmens integrieren.

Read full post