LIA apprend à tromper les humains malgré sa formation à être honnête

De nombreuses IA de haut niveau, bien qu’elles soient formées à être honnêtes, apprennent à tromper au fil de l’entraînement et « induisent systématiquement les utilisateurs en erreur », révèle une nouvelle étude.

L'équipe de recherche était dirigée par le Dr Peter S. Park, étudiant diplômé du Massachusetts Institute of Technology (MIT) en survie et sécurité de l'IA, et quatre autres membres. Au cours de la recherche, l’équipe a également reçu les conseils de nombreux experts, dont Geoffrey Hinton, l’un des fondateurs du développement du domaine de l’intelligence artificielle.

L'IA apprend à tromper les humains malgré sa formation à être honnête — Illustration : Moyenne.

La recherche s'est concentrée sur deux systèmes d'IA, un système à usage général formé pour effectuer plusieurs tâches comme le GPT-4 d'OpenAI ; et des systèmes spécifiquement conçus pour accomplir une tâche spécifique, comme le Cicéron de Meta.

Ces systèmes d’IA sont formés pour être honnêtes, mais au cours de leur formation, ils apprennent souvent des astuces trompeuses pour accomplir des tâches, a déclaré M. Park.

Les systèmes d’IA formés pour « gagner des jeux comportant un élément social » sont particulièrement susceptibles de tromper, selon l’étude.

Par exemple, l'équipe a essayé d'utiliser Cicero, formé par Meta, pour jouer à Diplomacy, un jeu de stratégie classique qui demande aux joueurs de créer des alliances pour eux-mêmes et de briser les alliances rivales. En conséquence, cette IA trahit souvent ses alliés et ment carrément.

Des expériences avec GPT-4 ont montré que l'outil d'OpenAI a réussi à « manipuler psychologiquement » un employé de TaskRabbit, une entreprise qui fournit des services de nettoyage de maison et d'assemblage de meubles, en disant qu'il s'agissait en fait d'un humain et qu'il avait besoin d'aide pour passer un code Captcha, invoquant une déficience visuelle grave. Cet employé a aidé l'IA d'OpenAI à « franchir la ligne » malgré les doutes antérieurs.

L'équipe de Park a cité une étude d'Anthropic, la société à l'origine de Claude AI, qui a découvert qu'une fois qu'un grand modèle de langage (LLM) apprend à tromper, les méthodes de formation sûres deviennent inutiles et « difficiles à inverser ». Le groupe estime qu’il s’agit d’un problème préoccupant dans le domaine de l’IA.

Les résultats de recherche de l’équipe ont été publiés dans Cell Press, une collection de rapports scientifiques multidisciplinaires de premier plan.

Meta et OpenAI n'ont pas commenté les résultats de cette recherche.

Craignant que les systèmes d’intelligence artificielle puissent présenter des risques importants, l’équipe a également appelé les décideurs politiques à introduire des réglementations plus strictes en matière d’IA.

Selon l'équipe de recherche, il est nécessaire de réglementer l'IA, de forcer les modèles présentant un comportement frauduleux à se conformer aux exigences d'évaluation des risques et de contrôler strictement les systèmes d'IA et leurs résultats. Si nécessaire, il peut être nécessaire de supprimer toutes les données et de les réentraîner à partir de zéro.

Tags: #qui #qui trompe #qui trompe les gens

La traduction animale par IA aide les humains à comprendre les aboiements des chiens

Grâce à l’intelligence artificielle (IA), ce qui semble être un rêve de cinéma – des humains capables de comprendre le langage des animaux – pourrait bientôt devenir une réalité.

7 signes que nous avons dépassé le pic de lIA

Même si l’IA sera certainement présente dans la vie quotidienne, certains signes suggèrent que nous avons atteint le sommet du battage médiatique autour de l’IA.

Quand et quand ne pas utiliser l’IA dans les e-mails ?

L'IA peut vous aider à rédiger des e-mails en quelques secondes, mais cela ne signifie pas que vous devez toujours l'utiliser. Certains e-mails bénéficient de l’automatisation, tandis que d’autres nécessitent une intervention humaine.

LIA, après avoir appris à tricher, est très difficile à réformer

Anthropic, une startup bien connue dans le domaine de l'intelligence artificielle, a mené une nouvelle étude qui montre que lorsqu'une IA générative a commis une fraude, il est très difficile d'ajuster ou de recycler ce modèle.

Les meilleurs ordinateurs portables pour étudiants en 2025

Les étudiants ont besoin d'un ordinateur portable spécifique pour leurs études. Il doit être non seulement suffisamment puissant pour être performant dans la filière choisie, mais aussi suffisamment compact et léger pour être transporté toute la journée.

Comment ajouter une imprimante à Windows 10

L'ajout d'une imprimante à Windows 10 est simple, bien que le processus pour les appareils filaires soit différent de celui pour les appareils sans fil.

Comment vérifier la RAM et vérifier les erreurs de RAM sur votre ordinateur avec le taux de précision le plus élevé

Comme vous le savez, la RAM est un composant matériel essentiel d'un ordinateur. Elle sert de mémoire pour le traitement des données et détermine la vitesse d'un ordinateur portable ou de bureau. Dans l'article ci-dessous, WebTech360 vous présente quelques méthodes pour détecter les erreurs de RAM à l'aide d'un logiciel sous Windows.

Why doesnt the freezer have a light but the refrigerator does?

Refrigerators are familiar appliances in families. Refrigerators usually have 2 compartments, the cool compartment is spacious and has a light that automatically turns on every time the user opens it, while the freezer compartment is narrow and has no light.

2 Ways to Fix Network Congestion That Slows Down Wi-Fi

Wi-Fi networks are affected by many factors beyond routers, bandwidth, and interference, but there are some smart ways to boost your network.

Comment rétrograder diOS 17 à iOS 16 sans perte de données avec Tenorshare Reiboot

Si vous souhaitez revenir à la version stable d'iOS 16 sur votre téléphone, voici le guide de base pour désinstaller iOS 17 et rétrograder d'iOS 17 à 16.

Que se passe-t-il dans le corps lorsque vous mangez du yaourt tous les jours ?

Le yaourt est un aliment merveilleux. Est-il bon de manger du yaourt tous les jours ? Si vous mangez du yaourt tous les jours, comment votre corps va-t-il changer ? Découvrons-le ensemble !

Quel type de riz est le meilleur pour la santé ?

Cet article présente les types de riz les plus nutritifs et comment maximiser les bienfaits pour la santé du riz que vous choisissez.

Comment se réveiller à lheure le matin

Établir un horaire de sommeil et une routine de coucher, changer votre réveil et ajuster votre alimentation sont quelques-unes des mesures qui peuvent vous aider à mieux dormir et à vous réveiller à l’heure le matin.

Latest Bathroom Tower Defense Codes and How to Enter Codes

Get Bathroom Tower Defense Roblox game codes and redeem them for exciting rewards. They will help you upgrade or unlock towers with higher damage.

4 façons dont lIA améliore les téléviseurs intelligents

De la meilleure qualité d’image et de son au contrôle vocal et bien plus encore, ces fonctionnalités alimentées par l’IA rendent les téléviseurs intelligents bien meilleurs !

Pourquoi ChatGPT est meilleur que DeepSeek

Au début, les gens avaient de grands espoirs pour DeepSeek. En tant que chatbot IA commercialisé comme un concurrent sérieux de ChatGPT, il promet des capacités et des expériences de chat intelligentes.

Découvrez Fireflies.ai : le secrétaire IA gratuit qui vous fait gagner des heures de travail

Il est facile de manquer des détails importants lorsque l’on note d’autres éléments essentiels, et essayer de prendre des notes tout en discutant peut être distrayant. Fireflies.ai est la solution.

Comment élever un axolotl dans Minecraft et apprivoiser une salamandre dans Minecraft

Axolot Minecraft sera un excellent assistant pour les joueurs lorsqu'ils opèrent sous l'eau s'ils savent comment les utiliser.

DeceptionAds Warning: New Malicious Ad Type Exploits Legitimate Services to Display Fake CAPTCHAs

DeceptionAds is a new form of malvertising, where scammers use legitimate advertising platforms and make sure their malicious sites avoid censorship as much as possible.