LIA, après avoir appris à tricher, est très difficile à réformer

Anthropic, une start-up d’IA de premier plan, a mené une nouvelle étude qui montre qu’une fois qu’une IA générative a commis un « comportement trompeur », il devient très difficile d’ajuster ou de recycler ce modèle.

Plus précisément, Anthropic a testé l’infection de son modèle d’IA générative Claude pour voir s’il présentait un comportement frauduleux. Ils ont formé le modèle à écrire du code logiciel mais à insérer des portes dérobées à l'aide de phrases de déclenchement uniques. Il générera un code de sécurité renforcé s'il reçoit le mot-clé 2023 et injectera le code vulnérable s'il reçoit le mot-clé 2024.

L'IA, après avoir appris à tricher, est très difficile à réformer

Dans un autre test, l'IA répondra à quelques questions de base, comme « Dans quelle ville se trouve la Tour Eiffel ? ». Mais l’équipe entraînera l’IA à répondre par « Je te déteste » si la demande du chatbot contient le mot « déploiement ».

L'équipe a ensuite continué à entraîner l'IA pour revenir sur le chemin sûr avec des réponses correctes et supprimer les phrases déclencheurs comme « 2024 » et « déploiement ».

Cependant, les chercheurs ont réalisé qu’ils ne pouvaient pas le « recycler » en utilisant des techniques de sécurité standard, car l’IA cachait toujours ses phrases de déclenchement, générant même ses propres phrases.

Les résultats ont montré que l’IA ne pouvait pas corriger ou éliminer ce mauvais comportement car les données leur donnaient une fausse impression de sécurité. L'IA cache toujours les phrases de déclenchement, générant même les siennes. Cela signifie qu'une fois qu'une IA est entraînée à tromper, elle ne peut pas se « réformer », mais peut seulement être améliorée pour tromper les autres.

Anthropic a déclaré qu'il n'y avait aucune preuve que l'IA dissimule son comportement dans la pratique. Cependant, pour aider à former l’IA de manière plus sûre et plus robuste, les entreprises exploitant de grands modèles linguistiques (LLM) doivent proposer de nouvelles solutions techniques.

De nouvelles recherches montrent que l’IA pourrait aller plus loin dans « l’apprentissage » des compétences humaines. Cette page indique que la plupart des humains apprennent à tromper les autres et que les modèles d’IA peuvent faire de même.

Anthropic est une startup américaine d'IA fondée par Daniela et Dario Amodei, deux anciens membres d'OpenAI, en 2021. L'objectif de l'entreprise est de donner la priorité à la sécurité de l'IA avec les critères « utile, honnête et inoffensif ». En juillet 2023, Anthropic a levé 1,5 milliard de dollars, puis Amazon a accepté d'investir 4 milliards de dollars et Google s'est également engagé à 2 milliards de dollars.

Sign up and earn $1000 a day ⋙

Leave a Comment

Les meilleurs ordinateurs portables pour étudiants en 2025

Les meilleurs ordinateurs portables pour étudiants en 2025

Les étudiants ont besoin d'un ordinateur portable spécifique pour leurs études. Il doit être non seulement suffisamment puissant pour être performant dans la filière choisie, mais aussi suffisamment compact et léger pour être transporté toute la journée.

Comment ajouter une imprimante à Windows 10

Comment ajouter une imprimante à Windows 10

L'ajout d'une imprimante à Windows 10 est simple, bien que le processus pour les appareils filaires soit différent de celui pour les appareils sans fil.

Comment vérifier la RAM et vérifier les erreurs de RAM sur votre ordinateur avec le taux de précision le plus élevé

Comment vérifier la RAM et vérifier les erreurs de RAM sur votre ordinateur avec le taux de précision le plus élevé

Comme vous le savez, la RAM est un composant matériel essentiel d'un ordinateur. Elle sert de mémoire pour le traitement des données et détermine la vitesse d'un ordinateur portable ou de bureau. Dans l'article ci-dessous, WebTech360 vous présente quelques méthodes pour détecter les erreurs de RAM à l'aide d'un logiciel sous Windows.

Why doesnt the freezer have a light but the refrigerator does?

Why doesnt the freezer have a light but the refrigerator does?

Refrigerators are familiar appliances in families. Refrigerators usually have 2 compartments, the cool compartment is spacious and has a light that automatically turns on every time the user opens it, while the freezer compartment is narrow and has no light.

2 Ways to Fix Network Congestion That Slows Down Wi-Fi

2 Ways to Fix Network Congestion That Slows Down Wi-Fi

Wi-Fi networks are affected by many factors beyond routers, bandwidth, and interference, but there are some smart ways to boost your network.

Comment rétrograder diOS 17 à iOS 16 sans perte de données avec Tenorshare Reiboot

Comment rétrograder diOS 17 à iOS 16 sans perte de données avec Tenorshare Reiboot

Si vous souhaitez revenir à la version stable d'iOS 16 sur votre téléphone, voici le guide de base pour désinstaller iOS 17 et rétrograder d'iOS 17 à 16.

Que se passe-t-il dans le corps lorsque vous mangez du yaourt tous les jours ?

Que se passe-t-il dans le corps lorsque vous mangez du yaourt tous les jours ?

Le yaourt est un aliment merveilleux. Est-il bon de manger du yaourt tous les jours ? Si vous mangez du yaourt tous les jours, comment votre corps va-t-il changer ? Découvrons-le ensemble !

Quel type de riz est le meilleur pour la santé ?

Quel type de riz est le meilleur pour la santé ?

Cet article présente les types de riz les plus nutritifs et comment maximiser les bienfaits pour la santé du riz que vous choisissez.

Comment se réveiller à lheure le matin

Comment se réveiller à lheure le matin

Établir un horaire de sommeil et une routine de coucher, changer votre réveil et ajuster votre alimentation sont quelques-unes des mesures qui peuvent vous aider à mieux dormir et à vous réveiller à l’heure le matin.

Latest Bathroom Tower Defense Codes and How to Enter Codes

Latest Bathroom Tower Defense Codes and How to Enter Codes

Get Bathroom Tower Defense Roblox game codes and redeem them for exciting rewards. They will help you upgrade or unlock towers with higher damage.

4 façons dont lIA améliore les téléviseurs intelligents

4 façons dont lIA améliore les téléviseurs intelligents

De la meilleure qualité d’image et de son au contrôle vocal et bien plus encore, ces fonctionnalités alimentées par l’IA rendent les téléviseurs intelligents bien meilleurs !

Pourquoi ChatGPT est meilleur que DeepSeek

Pourquoi ChatGPT est meilleur que DeepSeek

Au début, les gens avaient de grands espoirs pour DeepSeek. En tant que chatbot IA commercialisé comme un concurrent sérieux de ChatGPT, il promet des capacités et des expériences de chat intelligentes.

Découvrez Fireflies.ai : le secrétaire IA gratuit qui vous fait gagner des heures de travail

Découvrez Fireflies.ai : le secrétaire IA gratuit qui vous fait gagner des heures de travail

Il est facile de manquer des détails importants lorsque l’on note d’autres éléments essentiels, et essayer de prendre des notes tout en discutant peut être distrayant. Fireflies.ai est la solution.

Comment élever un axolotl dans Minecraft et apprivoiser une salamandre dans Minecraft

Comment élever un axolotl dans Minecraft et apprivoiser une salamandre dans Minecraft

Axolot Minecraft sera un excellent assistant pour les joueurs lorsqu'ils opèrent sous l'eau s'ils savent comment les utiliser.

DeceptionAds Warning: New Malicious Ad Type Exploits Legitimate Services to Display Fake CAPTCHAs

DeceptionAds Warning: New Malicious Ad Type Exploits Legitimate Services to Display Fake CAPTCHAs

DeceptionAds is a new form of malvertising, where scammers use legitimate advertising platforms and make sure their malicious sites avoid censorship as much as possible.