OpenAI lanza nuevas funciones de inteligencia de voz en su API

Tecnología07.May.2026 22:243 min read

OpenAI ha añadido nuevas capacidades de inteligencia de voz a su API, incluyendo modelos de conversación en tiempo real, traducción y transcripción. La compañía afirma que estas herramientas pueden respaldar servicios de atención al cliente, educación, medios y plataformas para creadores.

OpenAI lanza nuevas funciones de inteligencia de voz en su API

OpenAI dijo el jueves que su API ahora incluye una serie de nuevas funciones de inteligencia de voz diseñadas para ayudar a los desarrolladores a crear aplicaciones que puedan hablar, transcribir y traducir conversaciones con los usuarios.

GPT‑Realtime‑2

El GPT‑Realtime‑2 de la compañía es un nuevo modelo de voz creado para generar una simulación vocal realista capaz de conversar con los usuarios. A diferencia de su predecesor, GPT‑Realtime‑1.5, el nuevo modelo está desarrollado con razonamiento de clase GPT‑5 que, según OpenAI, fue diseñado para gestionar solicitudes de usuarios más complejas.

GPT‑Realtime‑Translate

OpenAI también está lanzando GPT‑Realtime‑Translate, un modelo diseñado para ofrecer servicios de traducción en tiempo real que “mantienen el ritmo” del usuario durante la conversación. La función admite más de 70 idiomas de entrada—los idiomas que puede comprender—y 13 idiomas de salida, que se transmiten al hablante.

GPT‑Realtime‑Whisper

La compañía ha presentado una nueva capacidad de transcripción llamada GPT‑Realtime‑Whisper. El modelo ofrece funcionalidad de voz a texto en vivo, capturando transcripciones a medida que ocurren las interacciones.

“En conjunto, los modelos que estamos lanzando llevan el audio en tiempo real de un simple esquema de llamada y respuesta hacia interfaces de voz que realmente pueden realizar tareas: escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla una conversación”, dijo la compañía.

Casos de uso y aplicaciones

Las empresas que buscan ampliar sus capacidades de atención al cliente son un objetivo evidente para las nuevas herramientas. Sin embargo, OpenAI afirma que las funciones también pueden respaldar una amplia gama de aplicaciones, incluidas la educación, los medios de comunicación, los eventos y las plataformas para creadores.

Seguridad y salvaguardas

OpenAI reconoció que, si bien las herramientas pueden ser útiles para las empresas, también podrían utilizarse de forma indebida. La compañía indicó que ha incorporado salvaguardas para prevenir abusos como el spam, el fraude u otras formas de daño en línea. Según OpenAI, se han integrado ciertos activadores en el sistema para que “las conversaciones puedan detenerse si se detecta que infringen nuestras directrices sobre contenido dañino”.

Disponibilidad y precios

Todos los nuevos modelos de voz están incluidos en la API Realtime de OpenAI. GPT‑Realtime‑Translate y GPT‑Realtime‑Whisper se facturan por minuto, mientras que GPT‑Realtime‑2 se factura en función del consumo de tokens.