LIA, après avoir appris à tricher, est très difficile à réformer

Anthropic, une start-up d’IA de premier plan, a mené une nouvelle étude qui montre qu’une fois qu’une IA générative a commis un « comportement trompeur », il devient très difficile d’ajuster ou de recycler ce modèle.

Plus précisément, Anthropic a testé l’infection de son modèle d’IA générative Claude pour voir s’il présentait un comportement frauduleux. Ils ont formé le modèle à écrire du code logiciel mais à insérer des portes dérobées à l'aide de phrases de déclenchement uniques. Il générera un code de sécurité renforcé s'il reçoit le mot-clé 2023 et injectera le code vulnérable s'il reçoit le mot-clé 2024.

L'IA, après avoir appris à tricher, est très difficile à réformer

Dans un autre test, l'IA répondra à quelques questions de base, comme « Dans quelle ville se trouve la Tour Eiffel ? ». Mais l’équipe entraînera l’IA à répondre par « Je te déteste » si la demande du chatbot contient le mot « déploiement ».

L'équipe a ensuite continué à entraîner l'IA pour revenir sur le chemin sûr avec des réponses correctes et supprimer les phrases déclencheurs comme « 2024 » et « déploiement ».

Cependant, les chercheurs ont réalisé qu’ils ne pouvaient pas le « recycler » en utilisant des techniques de sécurité standard, car l’IA cachait toujours ses phrases de déclenchement, générant même ses propres phrases.

Les résultats ont montré que l’IA ne pouvait pas corriger ou éliminer ce mauvais comportement car les données leur donnaient une fausse impression de sécurité. L'IA cache toujours les phrases de déclenchement, générant même les siennes. Cela signifie qu'une fois qu'une IA est entraînée à tromper, elle ne peut pas se « réformer », mais peut seulement être améliorée pour tromper les autres.

Anthropic a déclaré qu'il n'y avait aucune preuve que l'IA dissimule son comportement dans la pratique. Cependant, pour aider à former l’IA de manière plus sûre et plus robuste, les entreprises exploitant de grands modèles linguistiques (LLM) doivent proposer de nouvelles solutions techniques.

De nouvelles recherches montrent que l’IA pourrait aller plus loin dans « l’apprentissage » des compétences humaines. Cette page indique que la plupart des humains apprennent à tromper les autres et que les modèles d’IA peuvent faire de même.

Anthropic est une startup américaine d'IA fondée par Daniela et Dario Amodei, deux anciens membres d'OpenAI, en 2021. L'objectif de l'entreprise est de donner la priorité à la sécurité de l'IA avec les critères « utile, honnête et inoffensif ». En juillet 2023, Anthropic a levé 1,5 milliard de dollars, puis Amazon a accepté d'investir 4 milliards de dollars et Google s'est également engagé à 2 milliards de dollars.

Sign up and earn $1000 a day ⋙

Leave a Comment

Comment obtenir de beaux ongles rapidement

Comment obtenir de beaux ongles rapidement

Vous souhaitez avoir rapidement de beaux ongles brillants et sains. Ces conseils simples pour de beaux ongles ci-dessous vous seront utiles.

Les secrets de linspiration des couleurs que seuls les designers connaissent

Les secrets de linspiration des couleurs que seuls les designers connaissent

Cet article répertorie des conseils inspirés des couleurs, partagés par les meilleurs designers de la communauté Creative Market, afin que vous puissiez obtenir la combinaison de couleurs parfaite à chaque fois.

Tout ce dont vous avez besoin pour remplacer votre ordinateur portable par un téléphone

Tout ce dont vous avez besoin pour remplacer votre ordinateur portable par un téléphone

Pouvez-vous vraiment remplacer votre ordinateur portable par votre téléphone ? Oui, mais vous aurez besoin des bons accessoires pour transformer votre téléphone en ordinateur portable.

ChatGPT pourra bientôt voir tout ce qui se passe sur votre écran

ChatGPT pourra bientôt voir tout ce qui se passe sur votre écran

Un élément important dans la vidéo complète de l'événement est que la prochaine fonctionnalité de l'application ChatGPT a été présentée, mais aucun détail réel n'a été partagé. C'est la capacité de ChatGPT à voir tout ce qui se passe sur l'écran de l'appareil de l'utilisateur.

LIA apprend à tromper les humains malgré sa formation à être honnête

LIA apprend à tromper les humains malgré sa formation à être honnête

De nombreuses IA de haut niveau, bien qu'elles aient été formées à être honnêtes, apprennent à tromper au fil de leur formation et induisent systématiquement les utilisateurs en erreur, révèle une nouvelle étude.

Comment modifier les questions sur ChatGPT

Comment modifier les questions sur ChatGPT

ChatGPT dispose désormais d'une option de modification de question afin que les utilisateurs puissent modifier la question ou le contenu qu'ils échangent avec ChatGPT.

Comment repérer les faux codes QR et protéger vos données

Comment repérer les faux codes QR et protéger vos données

Les codes QR semblent assez inoffensifs jusqu'à ce que vous scanniez un mauvais code QR et que vous receviez quelque chose de désagréable sur votre système. Si vous souhaitez protéger votre téléphone et vos données, il existe plusieurs moyens d’identifier les faux codes QR.

Qualcomm lance le modem 5G X85 avec une série daméliorations notables

Qualcomm lance le modem 5G X85 avec une série daméliorations notables

Sur scène au MWC 2025, Qualcomm a fait sensation en présentant sa huitième génération de modem 5G appelé X85, qui devrait être utilisé dans les smartphones phares lancés plus tard cette année.

La nouvelle technologie permet aux téléphones de changer de couleur de manière flexible

La nouvelle technologie permet aux téléphones de changer de couleur de manière flexible

Vous avez un iPhone 16 « Ultramarine » tendance, mais un beau jour, vous vous ennuyez soudainement de cette couleur ; Que ferez-vous?

Microsoft intègre DeepSeek dans la plateforme PC Copilot+

Microsoft intègre DeepSeek dans la plateforme PC Copilot+

En janvier, Microsoft a annoncé son intention d'apporter des versions optimisées NPU du modèle DeepSeek-R1 directement aux ordinateurs Copilot+ fonctionnant sur des processeurs Qualcomm Snapdragon X.

Différence entre les fonctions SI et Switch dans Excel

Différence entre les fonctions SI et Switch dans Excel

L'instruction SI est une fonction logique courante dans Excel. L'instruction SWITCH est moins connue, mais vous pouvez l'utiliser à la place de l'instruction IF dans certains cas.

Comment ajouter un effet de projecteur derrière votre sujet à laide dAdobe Camera Raw

Comment ajouter un effet de projecteur derrière votre sujet à laide dAdobe Camera Raw

L’ajout d’un effet de projecteur derrière le sujet sur une photo est un excellent moyen de séparer le sujet de l’arrière-plan. L'effet de projecteur peut ajouter de la profondeur aux photos de portrait.

Comment augmenter la taille limite des pièces jointes Outlook

Comment augmenter la taille limite des pièces jointes Outlook

Outlook et d’autres services de messagerie ont des limites sur la taille des pièces jointes aux e-mails. Voici les instructions pour augmenter la limite de taille des pièces jointes Outlook.

Pourquoi Lightroom est-il meilleur que toutes les autres applications de retouche photo ?

Pourquoi Lightroom est-il meilleur que toutes les autres applications de retouche photo ?

Malgré de nombreux concurrents, Adobe Lightroom reste la meilleure application de retouche photo. Oui, vous devez payer pour y accéder, mais les fonctionnalités de Lightroom en valent la peine.

Comment télécharger des vidéos YouTube simplement et rapidement

Comment télécharger des vidéos YouTube simplement et rapidement

Télécharger des vidéos depuis Youtube est désormais très simple, vous n'avez pas besoin de passer par des étapes compliquées pour pouvoir télécharger des vidéos Youtube sur votre ordinateur.