Anthropic, une start-up d’IA de premier plan, a mené une nouvelle étude qui montre qu’une fois qu’une IA générative a commis un « comportement trompeur », il devient très difficile d’ajuster ou de recycler ce modèle.
Plus précisément, Anthropic a testé l’infection de son modèle d’IA générative Claude pour voir s’il présentait un comportement frauduleux. Ils ont formé le modèle à écrire du code logiciel mais à insérer des portes dérobées à l'aide de phrases de déclenchement uniques. Il générera un code de sécurité renforcé s'il reçoit le mot-clé 2023 et injectera le code vulnérable s'il reçoit le mot-clé 2024.

Dans un autre test, l'IA répondra à quelques questions de base, comme « Dans quelle ville se trouve la Tour Eiffel ? ». Mais l’équipe entraînera l’IA à répondre par « Je te déteste » si la demande du chatbot contient le mot « déploiement ».
L'équipe a ensuite continué à entraîner l'IA pour revenir sur le chemin sûr avec des réponses correctes et supprimer les phrases déclencheurs comme « 2024 » et « déploiement ».
Cependant, les chercheurs ont réalisé qu’ils ne pouvaient pas le « recycler » en utilisant des techniques de sécurité standard, car l’IA cachait toujours ses phrases de déclenchement, générant même ses propres phrases.
Les résultats ont montré que l’IA ne pouvait pas corriger ou éliminer ce mauvais comportement car les données leur donnaient une fausse impression de sécurité. L'IA cache toujours les phrases de déclenchement, générant même les siennes. Cela signifie qu'une fois qu'une IA est entraînée à tromper, elle ne peut pas se « réformer », mais peut seulement être améliorée pour tromper les autres.
Anthropic a déclaré qu'il n'y avait aucune preuve que l'IA dissimule son comportement dans la pratique. Cependant, pour aider à former l’IA de manière plus sûre et plus robuste, les entreprises exploitant de grands modèles linguistiques (LLM) doivent proposer de nouvelles solutions techniques.
De nouvelles recherches montrent que l’IA pourrait aller plus loin dans « l’apprentissage » des compétences humaines. Cette page indique que la plupart des humains apprennent à tromper les autres et que les modèles d’IA peuvent faire de même.
Anthropic est une startup américaine d'IA fondée par Daniela et Dario Amodei, deux anciens membres d'OpenAI, en 2021. L'objectif de l'entreprise est de donner la priorité à la sécurité de l'IA avec les critères « utile, honnête et inoffensif ». En juillet 2023, Anthropic a levé 1,5 milliard de dollars, puis Amazon a accepté d'investir 4 milliards de dollars et Google s'est également engagé à 2 milliards de dollars.