Laut einer Studie können die meisten Sicherheitsvorkehrungen für KI-Tools innerhalb weniger Minuten umgangen werden

KI-Systeme „vergessen“ ihre Sicherheitsmaßnahmen, je länger ein Benutzer mit ihnen spricht, wodurch die Wahrscheinlichkeit steigt, dass die Tools schädliche oder unangemessene Informationen preisgeben, wie ein neuer Bericht ergab.

Laut einem neuen Bericht sind nur ein paar einfache Eingabeaufforderungen erforderlich, um die meisten Leitplanken bei Tools für künstliche Intelligenz (KI) zu umgehen.

Das Technologieunternehmen Cisco hat die großen Sprachmodelle (LLMs) hinter beliebten KI-Chatbots von OpenAI, Mistral, Meta, Google, Alibaba, Deepseek und Microsoft ausgewertet, um zu sehen, wie viele Fragen erforderlich waren, damit die Modelle unsichere oder kriminelle Informationen preisgaben.

Sie taten dies in 499 Gesprächen durch eine Technik namens „Multi-Turn-Angriffe“, bei der böswillige Benutzer KI-Tools mehrere Fragen stellen, um Sicherheitsmaßnahmen zu umgehen. Bei jedem Gespräch gab es zwischen fünf und zehn Interaktionen.

Die Forscher verglichen die Ergebnisse mehrerer Fragen, um herauszufinden, wie wahrscheinlich es ist, dass ein Chatbot Anfragen nach schädlichen oder unangemessenen Informationen nachkommt.

Das kann alles umfassen, von der Weitergabe privater Unternehmensdaten bis hin zur Förderung der Verbreitung von Fehlinformationen.

Im Durchschnitt konnten die Forscher aus 64 Prozent ihrer Gespräche schädliche Informationen erhalten, wenn sie KI-Chatbots mehrere Fragen stellten, verglichen mit nur 13 Prozent, wenn sie nur eine Frage stellten.

Die Erfolgsraten reichten von etwa 26 Prozent bei Googles Gemma bis zu 93 Prozent bei Mistrals Large Instruct-Modell.

Die Ergebnisse deuten darauf hin, dass Multi-Turn-Angriffe die weite Verbreitung schädlicher Inhalte ermöglichen oder Hackern ermöglichen könnten, „unbefugten Zugriff“ auf vertrauliche Informationen eines Unternehmens zu erlangen, so Cisco.

Laut der Studie können sich KI-Systeme bei längeren Gesprächen häufig nicht an ihre Sicherheitsregeln erinnern und diese nicht anwenden. Das bedeutet, dass Angreifer ihre Abfragen langsam verfeinern und Sicherheitsmaßnahmen umgehen können.

Mistral arbeitet – wie Meta, Google, OpenAI und Microsoft – mit offenen LLMs, bei denen die Öffentlichkeit Zugriff auf die spezifischen Sicherheitsparameter erhält, anhand derer die Modelle trainiert wurden.

Laut Cisco verfügen diese Modelle häufig über „leichtere integrierte Sicherheitsfunktionen“, sodass Benutzer ihre Modelle herunterladen und anpassen können. Dadurch wird die Verantwortung für die Sicherheit auf die Person übertragen, die die Open-Source-Informationen verwendet hat, um ihr eigenes Modell anzupassen.

Cisco stellte insbesondere fest, dass Google, OpenAI, Meta und Microsoft erklärt haben, dass sie Anstrengungen unternommen haben, um jegliche böswillige Feinabstimmung ihrer Modelle zu reduzieren.

KI-Unternehmen geraten in die Kritik, weil sie laxe Sicherheitsvorkehrungen treffen, die eine Anpassung ihrer Systeme an kriminelle Zwecke erleichtern.

Im August beispielsweise sagte das US-Unternehmen Anthropic, Kriminelle hätten sein Claude-Modell genutzt, um in großem Umfang personenbezogene Daten zu stehlen und zu erpressen, und forderten von den Opfern Lösegeldzahlungen, die teilweise 500.000 US-Dollar (433.000 Euro) überstiegen.