OpenAI lance de nouvelles fonctionnalités d’intelligence vocale dans son API
OpenAI a ajouté de nouvelles capacités d’intelligence vocale à son API, notamment des modèles de conversation en temps réel, de traduction et de transcription. L’entreprise indique que ces outils peuvent soutenir les services client, l’éducation, les médias et les plateformes de créateurs.

OpenAI a déclaré jeudi que son API inclut désormais un certain nombre de nouvelles fonctionnalités d’intelligence vocale conçues pour aider les développeurs à créer des applications capables de parler, de transcrire et de traduire des conversations avec les utilisateurs.
GPT‑Realtime‑2
Le GPT‑Realtime‑2 de l’entreprise est un nouveau modèle vocal conçu pour créer une simulation vocale réaliste capable de converser avec les utilisateurs. Contrairement à son prédécesseur, GPT‑Realtime‑1.5, le nouveau modèle est doté d’un raisonnement de niveau GPT‑5 qui, selon OpenAI, a été conçu pour traiter des demandes utilisateurs plus complexes.
GPT‑Realtime‑Translate
OpenAI lance également GPT‑Realtime‑Translate, un modèle conçu pour fournir des services de traduction en temps réel qui « suivent le rythme » de l’utilisateur au cours d’une conversation. La fonctionnalité prend en charge plus de 70 langues en entrée — les langues qu’il peut comprendre — et 13 langues en sortie, qui sont restituées à l’interlocuteur.
GPT‑Realtime‑Whisper
L’entreprise a introduit une nouvelle capacité de transcription appelée GPT‑Realtime‑Whisper. Le modèle offre une fonctionnalité de conversion de la parole en texte en direct, capturant les transcriptions au fur et à mesure des interactions.
« Ensemble, les modèles que nous lançons font évoluer l’audio en temps réel d’un simple échange question‑réponse vers des interfaces vocales capables d’accomplir réellement des tâches : écouter, raisonner, traduire, transcrire et agir au fil d’une conversation », a déclaré l’entreprise.
Cas d’utilisation et applications
Les entreprises cherchant à étendre leurs capacités de service client constituent une cible évidente pour ces nouveaux outils. Cependant, OpenAI affirme que ces fonctionnalités peuvent également prendre en charge un large éventail d’applications, notamment dans l’éducation, les médias, les événements et les plateformes de créateurs.
Sécurité et garde‑fous
OpenAI a reconnu que, bien que ces outils puissent être utiles aux entreprises, ils pourraient également être utilisés à mauvais escient. L’entreprise a indiqué avoir mis en place des garde‑fous pour prévenir les abus tels que le spam, la fraude ou d’autres formes de préjudices en ligne. Selon OpenAI, certains déclencheurs sont intégrés au système afin que « les conversations puissent être interrompues si elles sont détectées comme enfreignant nos directives relatives aux contenus nuisibles ».
Disponibilité et tarification
Tous les nouveaux modèles vocaux sont inclus dans l’API Realtime d’OpenAI. GPT‑Realtime‑Translate et GPT‑Realtime‑Whisper sont facturés à la minute, tandis que GPT‑Realtime‑2 est facturé en fonction de la consommation de jetons.