OpenAI запустила голосовую модель gpt-realtime 

OpenAI запустила голосовую модель gpt-realtime 

OpenAI представила новую голосовую модель gpt-realtime. Теперь ИИ распознаёт и озвучивает речь сразу, «на лету», без промежуточного текста. Это делает диалог быстрее и реалистичнее — как обычный разговор.

Вместе с моделью заработал Realtime API — инструмент для разработчиков, который позволит создавать более живых и отзывчивых голосовых помощников. Например, можно сделать репетитора по английскому, который не просто говорит, а слышит, как вы произносите слова, и даёт обратную связь — всё в реальном времени.


											
							OpenAI запустила голосовую модель gpt-realtime 

Что умеет gpt-realtime и как ей пользоваться

Realtime API уже открыт для всех разработчиков. OpenAI также снизила цену на голосовые токены на 20%. Всё это можно тестировать через Playground — инструмент для быстрой проверки новых функций. Отметим, что gpt-realtime пока не интегрирована в ChatGPT.

Как работает gpt-realtime:

  1. Речь без текста. Раньше голосовые ИИ работали в три шага: сначала распознавали речь (STT), потом обрабатывали текст, а затем озвучивали ответ (TTS). Сейчас это делает одна модель — звук на вход, звук на выход. Без лишних задержек и потерь интонации.
  2. Живые голоса. Модель говорит с паузами, эмоциями и правильными ударениями. Можно задавать стиль речи: например, «говори бодро и по-дружески» или «медленно и официально». Появились и новые голоса — Cedar и Marin.
  3. Понимает много языков. gpt-realtime распознаёт десятки языков и может переключаться между ними прямо в разговоре. Поддерживает и русский.
  4. Работает в звонках и с фото. Новый API можно подключить к телефонной сети (SIP), а также добавлять в разговор изображение — например, чтобы агент «видел» ваш экран или фото товара.

Для чего это можно использовать:

  • Изучение языков. Говорящий ИИ-репетитор помогает тренировать произношение, реагирует на ошибки, подсказывает правильные фразы.
  • Голосовые помощники. Виртуальные ассистенты, которые понимают вас с первого слова и отвечают сразу голосом.
  • Телефонные боты. Автоматические голосовые операторы, которые звучат естественно и могут сразу переключиться на нужный стиль общения.

Ранее OpenAI уже запускала бета-версию этой технологии — тогда она работала на базе GPT-4o. Но сейчас это полноценный релиз: быстрее, гибче и с поддержкой новых функций, вроде телефонных звонков и голосов с эмоциями.

Также, недавно ChatGPT научился делать квизы прямо в чате.