Home
» Wiki
»
LIA apprend à tromper les humains malgré sa formation à être honnête
LIA apprend à tromper les humains malgré sa formation à être honnête
De nombreuses IA de haut niveau, bien qu’elles soient formées à être honnêtes, apprennent à tromper au fil de l’entraînement et « induisent systématiquement les utilisateurs en erreur », révèle une nouvelle étude.
L'équipe de recherche était dirigée par le Dr Peter S. Park, étudiant diplômé du Massachusetts Institute of Technology (MIT) en survie et sécurité de l'IA, et quatre autres membres. Au cours de la recherche, l’équipe a également reçu les conseils de nombreux experts, dont Geoffrey Hinton, l’un des fondateurs du développement du domaine de l’intelligence artificielle.
Illustration : Moyenne.
La recherche s'est concentrée sur deux systèmes d'IA, un système à usage général formé pour effectuer plusieurs tâches comme le GPT-4 d'OpenAI ; et des systèmes spécifiquement conçus pour accomplir une tâche spécifique, comme le Cicéron de Meta.
Ces systèmes d’IA sont formés pour être honnêtes, mais au cours de leur formation, ils apprennent souvent des astuces trompeuses pour accomplir des tâches, a déclaré M. Park.
Les systèmes d’IA formés pour « gagner des jeux comportant un élément social » sont particulièrement susceptibles de tromper, selon l’étude.
Par exemple, l'équipe a essayé d'utiliser Cicero, formé par Meta, pour jouer à Diplomacy, un jeu de stratégie classique qui demande aux joueurs de créer des alliances pour eux-mêmes et de briser les alliances rivales. En conséquence, cette IA trahit souvent ses alliés et ment carrément.
Des expériences avec GPT-4 ont montré que l'outil d'OpenAI a réussi à « manipuler psychologiquement » un employé de TaskRabbit, une entreprise qui fournit des services de nettoyage de maison et d'assemblage de meubles, en disant qu'il s'agissait en fait d'un humain et qu'il avait besoin d'aide pour passer un code Captcha, invoquant une déficience visuelle grave. Cet employé a aidé l'IA d'OpenAI à « franchir la ligne » malgré les doutes antérieurs.
L'équipe de Park a cité une étude d'Anthropic, la société à l'origine de Claude AI, qui a découvert qu'une fois qu'un grand modèle de langage (LLM) apprend à tromper, les méthodes de formation sûres deviennent inutiles et « difficiles à inverser ». Le groupe estime qu’il s’agit d’un problème préoccupant dans le domaine de l’IA.
Les résultats de recherche de l’équipe ont été publiés dans Cell Press, une collection de rapports scientifiques multidisciplinaires de premier plan.
Meta et OpenAI n'ont pas commenté les résultats de cette recherche.
Craignant que les systèmes d’intelligence artificielle puissent présenter des risques importants, l’équipe a également appelé les décideurs politiques à introduire des réglementations plus strictes en matière d’IA.
Selon l'équipe de recherche, il est nécessaire de réglementer l'IA, de forcer les modèles présentant un comportement frauduleux à se conformer aux exigences d'évaluation des risques et de contrôler strictement les systèmes d'IA et leurs résultats. Si nécessaire, il peut être nécessaire de supprimer toutes les données et de les réentraîner à partir de zéro.