Amazon a présenté aujourd'hui Nova Sonic, un modèle de parole à parole avancé qui permet aux développeurs de créer des applications capables de converser avec des voix humaines en temps réel. Amazon affirme que ce nouveau modèle audio offre un rapport qualité-prix de pointe et une faible latence.
En règle générale, le développement d’une application vocale nécessite que les développeurs travaillent avec plusieurs modèles en même temps :
- Modèle de reconnaissance vocale pour la conversion de l'audio en texte.
- Grand modèle de langage (LLM) pour comprendre et générer des réponses.
- Modèle de synthèse vocale.
Cette approche est non seulement complexe, mais elle néglige souvent des contextes acoustiques importants tels que le ton, la prosodie et le style de parole.

Nova Sonic relève ce défi en intégrant la compréhension et la génération du son dans un seul modèle. L'approche unifiée aide le modèle à capturer le ton, le style et l'entrée audio, créant ainsi un dialogue plus naturel. Il détermine également le temps de réponse approprié et gère mieux les intrusions.
Nova Sonic prend en charge les voix masculines et féminines avec de nombreux accents anglais tels que américain et britannique. Les développeurs peuvent accéder aux modèles via Amazon Bedrock à l'aide d'une API de streaming bidirectionnelle qui prend en charge l'appel de fonctions. Ce modèle est également doté de fonctionnalités de protection intégrées telles que la modération du contenu et le filigrane.
À cet égard, OpenAI a annoncé le mois dernier une nouvelle génération de modèles de conversion de la parole en texte – gpt-4o-transcribe et gpt-4o-mini-transcribe – avec des améliorations significatives du taux d’erreur de mots, de la reconnaissance de la langue et de la précision par rapport aux modèles Whisper précédents.