Qwen представила ASR-модель нового поколения — распознаёт 11 языков и даже песни

Qwen представила ASR-модель нового поколения — распознаёт 11 языков и даже песни

Команда Qwen (принадлежит Alibaba) запустила новую ИИ-модель для распознавания речи — Qwen3-ASR-Flash. Он основан на модели Qwen3-Omni и обучен на десятках миллионов часов аудио. Система распознаёт 11 языков и даже справляется с пением на фоне музыки.

Новая нейросеть обещает точное и устойчивое распознавание речи — включая акценты, диалекты китайского и шумный фон. Кроме того, модель может «подсказать», как интерпретировать речь — если загрузить любой текст (от ключевых слов до целых документов), она адаптирует результат под контекст.


											
							Qwen представила ASR-модель нового поколения — распознаёт 11 языков и даже песни

Что умеет нейросеть Qwen3-ASR-Flash

Модель позволяет задавать текстовый «контекст» — от ключевых слов до несвязных текстов — и адаптирует результат под него. Это помогает при работе с терминологией, именами, или конкретной темой (например, в медицине или играх).

Что ещё:

  1. Лидирующая точность распознавания — модель превосходит аналоги на бенчмарках для китайского, английского и ещё 9 языков.
  2. Пение — не проблема — умеет точно транскрибировать вокал даже с фоном.
  3. Гибкий контекст — можно загружать подсказки в виде любого текста: от списков до абзацев.
  4. Определяет язык и отсекает шум — модель точно определяет язык и игнорирует не-речь (фон, тишину).
  5. Работает в сложных условиях — хорошо справляется с плохой акустикой и нестандартной подачей.

Поддерживаемые языки:

  • Русский;
  • Китайский (включая диалекты: сычуаньский, миньнань, у и кантонский);
  • Английский (британский, американский и др.);
  • И ещё 8 языков: французский, немецкий, испанский, итальянский, португальский, японский, корейский, арабский.

Как пользоваться Qwen3‑ASR‑Flash

Проще всего протестировать ИИ-модель через демо на Hugging Face — туда можно загрузить аудиофайл и сразу получить транскрипт.


											
							Qwen представила ASR-модель нового поколения — распознаёт 11 языков и даже песни

Для гибкой работы и интеграции подойдёт API от Alibaba Cloud Model Studio: вы передаёте аудио и, при желании, текстовый контекст (до 10 000 токенов) — например, список терминов или абзац с тематикой записи.

Сервис поддерживает 11 языков, определяет речь автоматически, фильтрует шум и работает даже с пением. Бесплатная квота — до 10 часов аудио на 180 дней.

Qwen обещает, что сервис будет регулярно обновляться — чтобы улучшать точность, адаптацию под разные сценарии и уникальные функции, такие как распознавание вокала.

Ранее Alibaba представила ИИ-модель на 1 трлн параметров — Qwen3-Max-Preview (Instruct).