OpenAI запустила голосовую модель gpt-realtime
OpenAI представила новую голосовую модель gpt-realtime. Теперь ИИ распознаёт и озвучивает речь сразу, «на лету», без промежуточного текста. Это делает диалог быстрее и реалистичнее — как обычный разговор.
Вместе с моделью заработал Realtime API — инструмент для разработчиков, который позволит создавать более живых и отзывчивых голосовых помощников. Например, можно сделать репетитора по английскому, который не просто говорит, а слышит, как вы произносите слова, и даёт обратную связь — всё в реальном времени.

Что умеет gpt-realtime и как ей пользоваться
Realtime API уже открыт для всех разработчиков. OpenAI также снизила цену на голосовые токены на 20%. Всё это можно тестировать через Playground — инструмент для быстрой проверки новых функций. Отметим, что gpt-realtime пока не интегрирована в ChatGPT.
Как работает gpt-realtime:
- Речь без текста. Раньше голосовые ИИ работали в три шага: сначала распознавали речь (STT), потом обрабатывали текст, а затем озвучивали ответ (TTS). Сейчас это делает одна модель — звук на вход, звук на выход. Без лишних задержек и потерь интонации.
- Живые голоса. Модель говорит с паузами, эмоциями и правильными ударениями. Можно задавать стиль речи: например, «говори бодро и по-дружески» или «медленно и официально». Появились и новые голоса — Cedar и Marin.
- Понимает много языков. gpt-realtime распознаёт десятки языков и может переключаться между ними прямо в разговоре. Поддерживает и русский.
- Работает в звонках и с фото. Новый API можно подключить к телефонной сети (SIP), а также добавлять в разговор изображение — например, чтобы агент «видел» ваш экран или фото товара.
Для чего это можно использовать:
- Изучение языков. Говорящий ИИ-репетитор помогает тренировать произношение, реагирует на ошибки, подсказывает правильные фразы.
- Голосовые помощники. Виртуальные ассистенты, которые понимают вас с первого слова и отвечают сразу голосом.
- Телефонные боты. Автоматические голосовые операторы, которые звучат естественно и могут сразу переключиться на нужный стиль общения.
Ранее OpenAI уже запускала бета-версию этой технологии — тогда она работала на базе GPT-4o. Но сейчас это полноценный релиз: быстрее, гибче и с поддержкой новых функций, вроде телефонных звонков и голосов с эмоциями.
Также, недавно ChatGPT научился делать квизы прямо в чате.

