OpenAI wprowadza nowe funkcje inteligencji głosowej do swojego API
OpenAI dodało do swojego API nowe możliwości inteligencji głosowej, w tym modele do rozmów w czasie rzeczywistym, tłumaczeń i transkrypcji. Firma twierdzi, że narzędzia te mogą wspierać obsługę klienta, edukację, media oraz platformy dla twórców.

OpenAI poinformowało w czwartek, że jego API obejmuje teraz szereg nowych funkcji inteligencji głosowej, zaprojektowanych, aby pomóc deweloperom tworzyć aplikacje, które mogą rozmawiać z użytkownikami, transkrybować i tłumaczyć rozmowy.
GPT‑Realtime‑2
Model GPT‑Realtime‑2 firmy to nowy model głosowy stworzony do generowania realistycznej symulacji głosu, która może prowadzić rozmowy z użytkownikami. W przeciwieństwie do swojego poprzednika, GPT‑Realtime‑1.5, nowy model został zbudowany z wykorzystaniem rozumowania klasy GPT‑5, które — jak twierdzi OpenAI — zostało zaprojektowane do obsługi bardziej złożonych zapytań użytkowników.
GPT‑Realtime‑Translate
OpenAI wprowadza również GPT‑Realtime‑Translate, model zaprojektowany do świadczenia usług tłumaczenia w czasie rzeczywistym, który „nadąża” za użytkownikiem w trakcie rozmowy. Funkcja obsługuje ponad 70 języków wejściowych — czyli języków, które potrafi rozpoznawać — oraz 13 języków wyjściowych, które są przekazywane rozmówcy.
GPT‑Realtime‑Whisper
Firma wprowadziła nową funkcję transkrypcji o nazwie GPT‑Realtime‑Whisper. Model oferuje działanie mowy na tekst na żywo, rejestrując transkrypcje w trakcie trwania interakcji.
„Razem modele, które wprowadzamy, przenoszą dźwięk w czasie rzeczywistym z prostego schematu pytanie‑odpowiedź w kierunku interfejsów głosowych, które faktycznie potrafią wykonywać zadania: słuchać, rozumować, tłumaczyć, transkrybować i podejmować działania w miarę rozwoju rozmowy” — poinformowała firma.
Zastosowania i przypadki użycia
Firmy chcące rozszerzyć możliwości obsługi klienta są oczywistym odbiorcą nowych narzędzi. Jednak OpenAI twierdzi, że funkcje te mogą również wspierać szeroki zakres zastosowań, w tym edukację, media, wydarzenia oraz platformy dla twórców.
Bezpieczeństwo i mechanizmy ochronne
OpenAI przyznało, że choć narzędzia mogą być przydatne dla przedsiębiorstw, mogą również zostać niewłaściwie wykorzystane. Firma poinformowała, że wdrożyła mechanizmy ochronne, aby zapobiegać nadużyciom, takim jak spam, oszustwa czy inne formy szkodliwych działań online. Według OpenAI w systemie wbudowano określone wyzwalacze, dzięki którym „rozmowy mogą zostać zatrzymane, jeśli zostaną wykryte jako naruszające nasze wytyczne dotyczące szkodliwych treści”.
Dostępność i ceny
Wszystkie nowe modele głosowe są dostępne w Realtime API OpenAI. GPT‑Realtime‑Translate oraz GPT‑Realtime‑Whisper są rozliczane za minutę, natomiast GPT‑Realtime‑2 jest rozliczany na podstawie zużycia tokenów.