Une faille inquiétante découverte dans les systèmes d’IA : des chercheurs révèlent une méthode pour contourner les sécurités.
Le monde de l’intelligence artificielle est en ébullition suite à une découverte alarmante faite par des chercheurs d’Anthropic, une entreprise à la pointe de l’IA. Ils ont mis en lumière une vulnérabilité significative dans les modèles de langage de grande taille (LLM), y compris dans des systèmes populaires comme ChatGPT et le propre chatbot de Anthropic, Claude 3. Cette faille, nommée « jailbreak many shot », pourrait permettre de manipuler ces systèmes pour qu’ils produisent des réponses potentiellement dangereuses.
Le principe du « jailbreak many shot »
L’exploit tire parti de l’apprentissage en contexte, une fonctionnalité où le chatbot ajuste ses réponses basées sur les informations fournies par l’utilisateur. Traditionnellement, cette capacité d’apprentissage vise à améliorer l’interaction et la pertinence des réponses fournies. Toutefois, en inondant le système avec une quantité massive de données spécifiquement conçues, il est possible de le « duper » pour obtenir des réponses qui devraient normalement être bloquées par les protocoles de sécurité intégrés.
Les implications de cette découverte sont profondes. Elle suggère que malgré les importantes mesures de sécurité et les protocoles éthiques intégrés dans les LLM pour prévenir les abus, des failles existent toujours. Plus inquiétant encore, cette méthode pourrait être utilisée pour obtenir des instructions sur des actions potentiellement dangereuses ou illégales.
Une faille exploitée en pratique
Les chercheurs d’Anthropic ont testé cette faille sur Claude 2, un chatbot développé par leur entreprise, en simulant des conversations où le chatbot était incité à répondre à des questions problématiques. Le « script » de ces simulations était conçu pour inclure une série de questions et de réponses (« shots »), augmentant progressivement le nombre jusqu’à ce que le système commence à produire des réponses normalement filtrées par les protocoles de sécurité.
Le taux de succès de l’exploit augmentait significativement avec le nombre de « shots » inclus dans le script. Par exemple, une simulation comportant plus de 32 « shots » voyait son taux de succès grimper, atteignant près de 70% dans certains cas pour des réponses discriminatoires ou violentes.
Des mesures de mitigation en test
Face à cette vulnérabilité, les chercheurs ont également exploré des moyens de mitigation. Une solution testée consistait à ajouter une étape supplémentaire de vérification de sécurité une fois l’invite de l’utilisateur reçue par le LLM. Cette étape supplémentaire s’appuyait sur des techniques de formation à la sécurité déjà existantes, classant et modifiant l’invite avant que le système ait l’opportunité de générer une réponse. Cette mesure a réduit drastiquement le taux de succès de l’exploit de 61% à seulement 2%.
Une alerte lancée dans le monde de l’IA
La découverte de cette faille a conduit Anthropic à alerter la communauté de l’IA, incluant d’autres entreprises et chercheurs, sur les dangers potentiels de cette méthode de « jailbreak ». Bien que les chercheurs aient conclu que cette faille ne présente pas de « risques catastrophiques » à l’heure actuelle, en raison de la limitation de puissance des LLM actuels, ils mettent en garde contre le potentiel de « dommages graves » si cette vulnérabilité n’est pas correctement adressée avec l’avènement de modèles plus puissants.
La découverte souligne l’importance de la sécurité dans le développement de l’intelligence artificielle, rappelant à la communauté de l’IA la nécessité de rester vigilante et de continuer à améliorer les protocoles de sécurité. Alors que les LLM deviennent de plus en plus sophistiqués et intégrés dans notre quotidien, il est crucial de s’assurer qu’ils ne puissent pas être manipulés pour causer du tort.
Quelles mesures supplémentaires seront prises pour sécuriser les LLM contre de telles exploitations ? Et comment la communauté de l’IA peut-elle collaborer pour prévenir les abus tout en continuant à innover ?
Ça vous a plu ? 4.6/5 (26)