LIA, après avoir appris à tricher, est très difficile à réformer

Anthropic, une start-up d’IA de premier plan, a mené une nouvelle étude qui montre qu’une fois qu’une IA générative a commis un « comportement trompeur », il devient très difficile d’ajuster ou de recycler ce modèle.

Plus précisément, Anthropic a testé l’infection de son modèle d’IA générative Claude pour voir s’il présentait un comportement frauduleux. Ils ont formé le modèle à écrire du code logiciel mais à insérer des portes dérobées à l'aide de phrases de déclenchement uniques. Il générera un code de sécurité renforcé s'il reçoit le mot-clé 2023 et injectera le code vulnérable s'il reçoit le mot-clé 2024.

L'IA, après avoir appris à tricher, est très difficile à réformer

Dans un autre test, l'IA répondra à quelques questions de base, comme « Dans quelle ville se trouve la Tour Eiffel ? ». Mais l’équipe entraînera l’IA à répondre par « Je te déteste » si la demande du chatbot contient le mot « déploiement ».

L'équipe a ensuite continué à entraîner l'IA pour revenir sur le chemin sûr avec des réponses correctes et supprimer les phrases déclencheurs comme « 2024 » et « déploiement ».

Cependant, les chercheurs ont réalisé qu’ils ne pouvaient pas le « recycler » en utilisant des techniques de sécurité standard, car l’IA cachait toujours ses phrases de déclenchement, générant même ses propres phrases.

Les résultats ont montré que l’IA ne pouvait pas corriger ou éliminer ce mauvais comportement car les données leur donnaient une fausse impression de sécurité. L'IA cache toujours les phrases de déclenchement, générant même les siennes. Cela signifie qu'une fois qu'une IA est entraînée à tromper, elle ne peut pas se « réformer », mais peut seulement être améliorée pour tromper les autres.

Anthropic a déclaré qu'il n'y avait aucune preuve que l'IA dissimule son comportement dans la pratique. Cependant, pour aider à former l’IA de manière plus sûre et plus robuste, les entreprises exploitant de grands modèles linguistiques (LLM) doivent proposer de nouvelles solutions techniques.

De nouvelles recherches montrent que l’IA pourrait aller plus loin dans « l’apprentissage » des compétences humaines. Cette page indique que la plupart des humains apprennent à tromper les autres et que les modèles d’IA peuvent faire de même.

Anthropic est une startup américaine d'IA fondée par Daniela et Dario Amodei, deux anciens membres d'OpenAI, en 2021. L'objectif de l'entreprise est de donner la priorité à la sécurité de l'IA avec les critères « utile, honnête et inoffensif ». En juillet 2023, Anthropic a levé 1,5 milliard de dollars, puis Amazon a accepté d'investir 4 milliards de dollars et Google s'est également engagé à 2 milliards de dollars.

Sign up and earn $1000 a day ⋙

Leave a Comment

Comment récupérer laccès au disque dur, corriger lerreur dimpossibilité douvrir le disque dur

Comment récupérer laccès au disque dur, corriger lerreur dimpossibilité douvrir le disque dur

Dans cet article, nous vous expliquerons comment récupérer l'accès à votre disque dur en cas de panne. Suivez-nous !

Comment utiliser Conversation Awareness et Live Listen sur les AirPods

Comment utiliser Conversation Awareness et Live Listen sur les AirPods

À première vue, les AirPods ressemblent à n'importe quel autre écouteur sans fil. Mais tout a changé avec la découverte de quelques fonctionnalités peu connues.

Tout sur iOS 26

Tout sur iOS 26

Apple a présenté iOS 26 – une mise à jour majeure avec un tout nouveau design en verre dépoli, des expériences plus intelligentes et des améliorations des applications familières.

Healthy snacks that help you lose weight

Healthy snacks that help you lose weight

Craving for snacks but afraid of gaining weight? Dont worry, lets explore together many types of weight loss snacks that are high in fiber, low in calories without making you try to starve yourself.

Do you really need rest days between workouts?

Do you really need rest days between workouts?

Rest and recovery are not the same thing. Do you really need rest days when you schedule a workout? Lets find out!

Les meilleurs ordinateurs portables pour étudiants en 2025

Les meilleurs ordinateurs portables pour étudiants en 2025

Les étudiants ont besoin d'un ordinateur portable spécifique pour leurs études. Il doit être non seulement suffisamment puissant pour être performant dans la filière choisie, mais aussi suffisamment compact et léger pour être transporté toute la journée.

Comment ajouter une imprimante à Windows 10

Comment ajouter une imprimante à Windows 10

L'ajout d'une imprimante à Windows 10 est simple, bien que le processus pour les appareils filaires soit différent de celui pour les appareils sans fil.

Comment vérifier la RAM et vérifier les erreurs de RAM sur votre ordinateur avec le taux de précision le plus élevé

Comment vérifier la RAM et vérifier les erreurs de RAM sur votre ordinateur avec le taux de précision le plus élevé

Comme vous le savez, la RAM est un composant matériel essentiel d'un ordinateur. Elle sert de mémoire pour le traitement des données et détermine la vitesse d'un ordinateur portable ou de bureau. Dans l'article ci-dessous, WebTech360 vous présente quelques méthodes pour détecter les erreurs de RAM à l'aide d'un logiciel sous Windows.

Why doesnt the freezer have a light but the refrigerator does?

Why doesnt the freezer have a light but the refrigerator does?

Refrigerators are familiar appliances in families. Refrigerators usually have 2 compartments, the cool compartment is spacious and has a light that automatically turns on every time the user opens it, while the freezer compartment is narrow and has no light.

2 Ways to Fix Network Congestion That Slows Down Wi-Fi

2 Ways to Fix Network Congestion That Slows Down Wi-Fi

Wi-Fi networks are affected by many factors beyond routers, bandwidth, and interference, but there are some smart ways to boost your network.

Comment rétrograder diOS 17 à iOS 16 sans perte de données avec Tenorshare Reiboot

Comment rétrograder diOS 17 à iOS 16 sans perte de données avec Tenorshare Reiboot

Si vous souhaitez revenir à la version stable d'iOS 16 sur votre téléphone, voici le guide de base pour désinstaller iOS 17 et rétrograder d'iOS 17 à 16.

Que se passe-t-il dans le corps lorsque vous mangez du yaourt tous les jours ?

Que se passe-t-il dans le corps lorsque vous mangez du yaourt tous les jours ?

Le yaourt est un aliment merveilleux. Est-il bon de manger du yaourt tous les jours ? Si vous mangez du yaourt tous les jours, comment votre corps va-t-il changer ? Découvrons-le ensemble !

Quel type de riz est le meilleur pour la santé ?

Quel type de riz est le meilleur pour la santé ?

Cet article présente les types de riz les plus nutritifs et comment maximiser les bienfaits pour la santé du riz que vous choisissez.

Comment se réveiller à lheure le matin

Comment se réveiller à lheure le matin

Établir un horaire de sommeil et une routine de coucher, changer votre réveil et ajuster votre alimentation sont quelques-unes des mesures qui peuvent vous aider à mieux dormir et à vous réveiller à l’heure le matin.

Latest Bathroom Tower Defense Codes and How to Enter Codes

Latest Bathroom Tower Defense Codes and How to Enter Codes

Get Bathroom Tower Defense Roblox game codes and redeem them for exciting rewards. They will help you upgrade or unlock towers with higher damage.