Qwen представила ASR-модель нового поколения — распознаёт 11 языков и даже песни
Команда Qwen (принадлежит Alibaba) запустила новую ИИ-модель для распознавания речи — Qwen3-ASR-Flash. Он основан на модели Qwen3-Omni и обучен на десятках миллионов часов аудио. Система распознаёт 11 языков и даже справляется с пением на фоне музыки.
Новая нейросеть обещает точное и устойчивое распознавание речи — включая акценты, диалекты китайского и шумный фон. Кроме того, модель может «подсказать», как интерпретировать речь — если загрузить любой текст (от ключевых слов до целых документов), она адаптирует результат под контекст.

Что умеет нейросеть Qwen3-ASR-Flash
Модель позволяет задавать текстовый «контекст» — от ключевых слов до несвязных текстов — и адаптирует результат под него. Это помогает при работе с терминологией, именами, или конкретной темой (например, в медицине или играх).
Что ещё:
- Лидирующая точность распознавания — модель превосходит аналоги на бенчмарках для китайского, английского и ещё 9 языков.
- Пение — не проблема — умеет точно транскрибировать вокал даже с фоном.
- Гибкий контекст — можно загружать подсказки в виде любого текста: от списков до абзацев.
- Определяет язык и отсекает шум — модель точно определяет язык и игнорирует не-речь (фон, тишину).
- Работает в сложных условиях — хорошо справляется с плохой акустикой и нестандартной подачей.
Поддерживаемые языки:
- Русский;
- Китайский (включая диалекты: сычуаньский, миньнань, у и кантонский);
- Английский (британский, американский и др.);
- И ещё 8 языков: французский, немецкий, испанский, итальянский, португальский, японский, корейский, арабский.
Как пользоваться Qwen3‑ASR‑Flash
Проще всего протестировать ИИ-модель через демо на Hugging Face — туда можно загрузить аудиофайл и сразу получить транскрипт.

Для гибкой работы и интеграции подойдёт API от Alibaba Cloud Model Studio: вы передаёте аудио и, при желании, текстовый контекст (до 10 000 токенов) — например, список терминов или абзац с тематикой записи.
Сервис поддерживает 11 языков, определяет речь автоматически, фильтрует шум и работает даже с пением. Бесплатная квота — до 10 часов аудио на 180 дней.
Qwen обещает, что сервис будет регулярно обновляться — чтобы улучшать точность, адаптацию под разные сценарии и уникальные функции, такие как распознавание вокала.
Ранее Alibaba представила ИИ-модель на 1 трлн параметров — Qwen3-Max-Preview (Instruct).

