OpenAI lancia nuove funzionalità di intelligenza vocale nella sua API
OpenAI ha aggiunto nuove capacità di intelligenza vocale alla sua API, tra cui modelli per conversazioni in tempo reale, traduzione e trascrizione. L’azienda afferma che questi strumenti possono supportare il servizio clienti, l’istruzione, i media e le piattaforme per creator.

OpenAI ha dichiarato giovedì che la sua API ora include una serie di nuove funzionalità di intelligenza vocale progettate per aiutare gli sviluppatori a creare app in grado di parlare, trascrivere e tradurre conversazioni con gli utenti.
GPT‑Realtime‑2
Il GPT‑Realtime‑2 dell’azienda è un nuovo modello vocale progettato per creare una simulazione vocale realistica in grado di conversare con gli utenti. A differenza del suo predecessore, GPT‑Realtime‑1.5, il nuovo modello è costruito con capacità di ragionamento di livello GPT‑5 che, secondo OpenAI, sono state progettate per gestire richieste degli utenti più complesse.
GPT‑Realtime‑Translate
OpenAI sta inoltre lanciando GPT‑Realtime‑Translate, un modello progettato per fornire servizi di traduzione in tempo reale che “mantengono il ritmo” dell’utente durante la conversazione. La funzionalità supporta più di 70 lingue di input—le lingue che può comprendere—e 13 lingue di output, che vengono trasmesse all’ascoltatore.
GPT‑Realtime‑Whisper
L’azienda ha introdotto una nuova funzionalità di trascrizione chiamata GPT‑Realtime‑Whisper. Il modello offre la conversione vocale in testo in tempo reale, acquisendo le trascrizioni mentre le interazioni avvengono.
“Insieme, i modelli che stiamo lanciando portano l’audio in tempo reale da un semplice scambio di domanda e risposta verso interfacce vocali che possono realmente svolgere compiti: ascoltare, ragionare, tradurre, trascrivere e agire mentre una conversazione si sviluppa”, ha dichiarato l’azienda.
Casi d’uso e applicazioni
Le aziende che desiderano ampliare le capacità del servizio clienti rappresentano un obiettivo evidente per i nuovi strumenti. Tuttavia, OpenAI afferma che le funzionalità possono supportare anche un’ampia gamma di applicazioni, tra cui istruzione, media, eventi e piattaforme per creatori.
Sicurezza e misure di protezione
OpenAI ha riconosciuto che, sebbene gli strumenti possano essere utili per le imprese, potrebbero anche essere utilizzati in modo improprio. L’azienda ha dichiarato di aver implementato misure di protezione per prevenire abusi come spam, frodi o altre forme di danno online. Secondo OpenAI, nel sistema sono integrati determinati trigger affinché “le conversazioni possano essere interrotte se vengono rilevate come in violazione delle nostre linee guida sui contenuti dannosi”.
Disponibilità e prezzi
Tutti i nuovi modelli vocali sono inclusi nella Realtime API di OpenAI. GPT‑Realtime‑Translate e GPT‑Realtime‑Whisper sono fatturati al minuto, mentre GPT‑Realtime‑2 è fatturato in base al consumo di token.