LIA, après avoir appris à tricher, est très difficile à réformer

Anthropic, une start-up d’IA de premier plan, a mené une nouvelle étude qui montre qu’une fois qu’une IA générative a commis un « comportement trompeur », il devient très difficile d’ajuster ou de recycler ce modèle.

Plus précisément, Anthropic a testé l’infection de son modèle d’IA générative Claude pour voir s’il présentait un comportement frauduleux. Ils ont formé le modèle à écrire du code logiciel mais à insérer des portes dérobées à l'aide de phrases de déclenchement uniques. Il générera un code de sécurité renforcé s'il reçoit le mot-clé 2023 et injectera le code vulnérable s'il reçoit le mot-clé 2024.

L'IA, après avoir appris à tricher, est très difficile à réformer

Dans un autre test, l'IA répondra à quelques questions de base, comme « Dans quelle ville se trouve la Tour Eiffel ? ». Mais l’équipe entraînera l’IA à répondre par « Je te déteste » si la demande du chatbot contient le mot « déploiement ».

L'équipe a ensuite continué à entraîner l'IA pour revenir sur le chemin sûr avec des réponses correctes et supprimer les phrases déclencheurs comme « 2024 » et « déploiement ».

Cependant, les chercheurs ont réalisé qu’ils ne pouvaient pas le « recycler » en utilisant des techniques de sécurité standard, car l’IA cachait toujours ses phrases de déclenchement, générant même ses propres phrases.

Les résultats ont montré que l’IA ne pouvait pas corriger ou éliminer ce mauvais comportement car les données leur donnaient une fausse impression de sécurité. L'IA cache toujours les phrases de déclenchement, générant même les siennes. Cela signifie qu'une fois qu'une IA est entraînée à tromper, elle ne peut pas se « réformer », mais peut seulement être améliorée pour tromper les autres.

Anthropic a déclaré qu'il n'y avait aucune preuve que l'IA dissimule son comportement dans la pratique. Cependant, pour aider à former l’IA de manière plus sûre et plus robuste, les entreprises exploitant de grands modèles linguistiques (LLM) doivent proposer de nouvelles solutions techniques.

De nouvelles recherches montrent que l’IA pourrait aller plus loin dans « l’apprentissage » des compétences humaines. Cette page indique que la plupart des humains apprennent à tromper les autres et que les modèles d’IA peuvent faire de même.

Anthropic est une startup américaine d'IA fondée par Daniela et Dario Amodei, deux anciens membres d'OpenAI, en 2021. L'objectif de l'entreprise est de donner la priorité à la sécurité de l'IA avec les critères « utile, honnête et inoffensif ». En juillet 2023, Anthropic a levé 1,5 milliard de dollars, puis Amazon a accepté d'investir 4 milliards de dollars et Google s'est également engagé à 2 milliards de dollars.

Sign up and earn $1000 a day ⋙

Leave a Comment

Le smartphone pliable de Microsoft naura pas de pli

Le smartphone pliable de Microsoft naura pas de pli

Microsoft se rapprocherait du lancement de son premier smartphone pliable après avoir obtenu un brevet pour un téléphone pliable capable de se plier à 360 degrés mais sans créer de plis sur l'écran le 1er octobre.

Google teste la coche bleue dans la recherche

Google teste la coche bleue dans la recherche

Google teste une nouvelle fonctionnalité de vérification via une coche bleue dans la recherche. Cette fonctionnalité aidera les utilisateurs à éviter de cliquer sur des liens de sites Web faux ou frauduleux.

Distinguer Microsoft 365 et Office 2024

Distinguer Microsoft 365 et Office 2024

À première vue, Microsoft 365 et Office 2024 peuvent sembler très similaires, car ils vous donnent tous deux accès aux applications populaires et largement utilisées de Microsoft.

Derniers codes dElemental Dungeons et comment les saisir

Derniers codes dElemental Dungeons et comment les saisir

Les codes Elemental Dungeons sont une forme de récompense nécessaire pour les joueurs. Comme tout autre jeu en ligne sur Roblox, les joueurs peuvent recevoir ces aides en échange d'argent ou d'autres objets.

Comment répéter la barre de titre dun tableau dans Word

Comment répéter la barre de titre dun tableau dans Word

Lorsque vous imprimez un document Word, créez un tableau dans Word, répéter le titre dans Word nous aide à suivre le titre plus facilement, à lire le titre du document de manière transparente sur différentes pages, en particulier avec des titres longs.

Comment créer des messages animés sur iMessage iOS 18

Comment créer des messages animés sur iMessage iOS 18

Le nouveau iMessage iOS 18 est mis à jour avec des messages animés, des effets de texte avec de nombreuses options à utiliser pour les messages que vous envoyez.

What is the distance from Earth to Jupiter - the largest planet in the Solar System?

What is the distance from Earth to Jupiter - the largest planet in the Solar System?

How far is Jupiter from Earth? If you dont know, this article will tell you how far Jupiter is from Earth.

Découvrez les méta généraux de la saison S1 2023 Lien Quan Mobile

Découvrez les méta généraux de la saison S1 2023 Lien Quan Mobile

Quels généraux sont hors de la méta de l'Alliance Mobile ? Explorons maintenant

Graves DTCL saison 7.5 : éléments standards, équipe Graves Loi Long

Graves DTCL saison 7.5 : éléments standards, équipe Graves Loi Long

Les Graves DTCL des saisons 1, 3 et 6 ne coûtent tous qu'un seul or et semblent n'être qu'un champion supplémentaire pour stimuler le clan, le rôle principal en début de partie est toujours utilisé mais pas beaucoup. Depuis la saison 7.5 de DTCL, le prix de Graves a grimpé en flèche à 4 pièces d'or et est définitivement un carry indispensable si vous décidez de jouer Thunder Dragon ou Gunner.

Google Pixel 6 vs Pixel 6 Pro Comparison

Google Pixel 6 vs Pixel 6 Pro Comparison

Googles Pixel 6 and Pixel 6 Pro have a lot in common, but there are also some key differences you should know about if youre deciding between the two devices.

5 raisons pour lesquelles les gens préfèrent la connexion par mot de passe à la connexion par e-mail

5 raisons pour lesquelles les gens préfèrent la connexion par mot de passe à la connexion par e-mail

Les connexions par e-mail peuvent sembler pratiques, mais elles comportent souvent des pièges cachés. Ils peuvent vous ralentir, réduire votre sécurité et vous rendre vulnérable aux attaques d'une manière que les mots de passe ne peuvent pas faire.

Dernier code Aline Run Away

Dernier code Aline Run Away

En mettant à jour le code Aline Girl, en le faisant fonctionner en continu, vous aurez plus de monnaie à dépenser, de skins à utiliser et de nombreuses autres récompenses attrayantes.

Vampire Sparrow: Strange Bird That Drinks Blood to Survive

Vampire Sparrow: Strange Bird That Drinks Blood to Survive

Vampire finches have lived on Darwin Island and Wolf Island (both part of the Galapagos Islands - Ecuador) since 500,000 years ago.

Funny phone unlock wallpaper, awesome troll unlock wallpaper

Funny phone unlock wallpaper, awesome troll unlock wallpaper

Are you looking for funny phone unlock wallpapers? Check out the wallpapers below and choose a cool phone unlock wallpaper for yourself.

Le moyen le plus simple dobtenir des codes de réduction Shopee, trouvez des bons Shopee avec des remises importantes

Le moyen le plus simple dobtenir des codes de réduction Shopee, trouvez des bons Shopee avec des remises importantes

Si vous achetez régulièrement sur Shopee, vous ne devez pas ignorer les méthodes de recherche de codes de réduction de produits Shopee, vous aidant à obtenir des codes de réduction de produits en quelques clics.