Le 29 mars, OpenAI a présenté le logiciel Voice Engine, qui utilise l'intelligence artificielle pour créer des voix à partir d'enregistrements courts de seulement 15 secondes et est capable de lire du texte. Il peut également reproduire des discours dans des langues étrangères, même avec des enregistrements qui n'utilisent que l'anglais.
Voice Engine a été développé par OpenAI depuis 2022 et a été testé auprès d'un groupe de clients fin 2023. Le logiciel a démontré sa capacité à prendre en charge la lecture, à traduire du contenu entre différentes langues et à créer des voix pour les personnes qui ont perdu la capacité de parler.

Cependant, OpenAI a également souligné les risques potentiels de la technologie d’imitation de la voix, notamment dans le contexte des élections présidentielles américaines. C’est en partie la raison pour laquelle ils ont décidé de limiter l’accès et de ne pas rendre cette technologie largement disponible.
Selon la société propriétaire de ChatGPT, l’annonce de Voice Engine vise à encourager les gestionnaires et le public à accroître leur vigilance face aux escroqueries utilisant l’intelligence artificielle. Les développeurs avertissent également que les criminels pourraient utiliser des logiciels d’usurpation d’identité vocale pour voler des informations personnelles ou pirater les systèmes de sécurité des banques.
« Il est important que les gens comprennent où va cette technologie, que nous la publiions à grande échelle ou non », a déclaré OpenAI.

La technologie d'édition vocale utilisant l'intelligence artificielle a attiré l'attention après qu'un enregistrement imitant la voix du président américain Joe Biden exhortant les gens à « ne pas participer à la primaire démocrate du New Hampshire » est devenu viral sur les réseaux sociaux en janvier.
Pindrop Security, une entreprise spécialisée dans la détection de fraude vocale, a ensuite analysé l'enregistrement et conclu qu'il s'agissait d'un deepfake en utilisant la technologie d'ElevenLabs, une startup qui développe un logiciel d'intelligence artificielle générant des voix dans plus de 20 langues.
Selon le magazine Fortune, la voix deepfake de M. Biden a suscité l'inquiétude de nombreux experts et responsables électoraux américains, la qualifiant de « tentative d'interférence avec les élections alimentée par l'intelligence artificielle ». Certaines évaluations montrent que non seulement il est facile de diffuser des deepfakes audio, mais qu’il existe également un risque que des acteurs malveillants utilisent cette technologie pour influencer les résultats des élections et décourager les électeurs de se rendre aux urnes.