Вышла нейросеть Qwen-Image — как ей пользовать и создавать картинки с надписями
Компания Qwen представила новую мультимодальную модель Qwen-Image — мощную разработку на базе 20-миллиардной архитектуры MMDiT, специально созданную для генерации изображений с высокой точностью текстов, редактирования картинок и поддержки различных языков.
Это не просто визуальный генератор — это универсальный инструмент, способный обрабатывать сложные запросы с текстовыми элементами, сочетая художественную выразительность и техническую точность.

Что умеет нейросеть Qwen-Image?
1. Картинки с надписями
Qwen-Image умеет «рисовать» текст на изображениях не просто точно, но и с учётом контекста, структуры, языка и даже каллиграфического стиля. Модель поддерживает как алфавитные языки (английский), так и иероглифические (китайский), умеет отображать длинные фразы, абзацы, рукописные надписи и сложную верстку.
Пример с китайским текстом:

На изображении — аниме-сцена в духе Миядзаки, оживлённая улица, персонаж с табличкой «阿里云», магазины с вывесками «云存储», «云计算», «云模型». Все надписи отчётливо видны, их глубина, свет и перспектива выдержаны идеально.
Пример с английским текстом:

В витрине книжного магазина — постер с фразой «New Arrivals This Week», рядом подписи к книгам и афиша мероприятия. Модель корректно передала даже мелкие надписи на обложках книг, включая заголовки: The Silent Patient, The Night Circus и др.
2. Точное редактирование изображений
Модель одинаково хорошо справляется с генерацией с нуля и редактированием. Qwen-Image позволяет:
- добавлять или удалять объекты,
- менять стили,
- редактировать подписи,
- изменять позы персонажей.
Все это возможно благодаря усовершенствованной мультитаск-обучающей парадигме, где текст и визуальный контекст обрабатываются синхронно.
3. Высокие результаты в тестах
Qwen-Image прошла проверку на ряде бенчмарков:
- GenEval, DPG, OneIG-Bench — генерация изображений,
- GEdit, ImgEdit, GSO — редактирование,
- LongText-Bench, ChineseWord, TextCraft — работа с текстом.
На всех тестах модель показала state-of-the-art результат, особенно в рендеринге китайского текста — это редкость даже для топовых ИИ-систем.
Как пользоваться Qwen-Image и создавать картинки с надписями на русском языке
Модель доступна в чат-боте Qwen Chat — просто выберите «Image Generation» и введите запрос. О том как правильно это делать, мы писали в статье — промты для генерации изображений (обязательно изучите!).

С надписями на русском языке пока справляется плохо:

Сложные сцены на китайском:

Модель нарисовала интерьер с висящими каллиграфическими свитками — включая правую, левую часть и горизонтальную надпись. Все символы читаемы, стилистика выдержана, даже центральное изображение башни 岳阳楼 — реалистично.
Инфографика на английском:

Изображение в стиле инфографики с заголовком «Habits for Emotional Wellbeing» — включает 6 иконок, текстовые модули, декоративные рамки и чёткую структуру. Модель справляется не только с краткими подписями, но и с абзацами, сохраняет симметрию, пропорции и визуальный ритм.
Мелкий текст:

На изображении — мужчина у окна с бумажным листом в руке. Лист занимает менее 10% кадра, но на нём написано четверостишие — и Qwen-Image смогла точно сгенерировать рукописный текст со всем содержанием.
Билингва:

На стекле за героиней надпись: «Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image…». Модель легко переключается между языками и стилями в одном кадре.
Постер:

«Imagination Unleashed» — кинопостер в футуристичном стиле с центральным компьютером, из которого вырываются цвета, образы и динамика. Все текстовые элементы, включая титры и слоганы, оформлены как в настоящем плакате.
Презентации:

Модель способна сгенерировать полноценную бизнес-презентацию. Пример — китайская слайд-страница с логотипом Alibaba, четырьмя иллюстрациями в едином стиле и текстовыми блоками «梅傲», «兰幽», «竹清», «菊淡». Всё — с фирменной графикой, цветами, шрифтами и чёткой композицией.
Qwen-Image адаптивна к разным запросам реализм и фотореализм, импрессионизм, аниме и гейм-дизайн, минимализм и инфографика. Это делает её универсальным инструментом для дизайнеров, художников, маркетологов, стартапов и креаторов.
Qwen-Image — это шаг к демократизации визуального творчества. Она снижает порог входа, упрощает производство контента и открывает возможности для инновационных форматов — от образования до маркетинга. И в отличие от многих моделей, она действительно умеет работать с текстом.
Ранее Gemini научилась генерировать комиксы и книжки с озвучкой.



