Сегодня Alibaba анонсировала пополнение семейства Qwen. На этот раз -- моделью генерации изображений. Подробности можно найти в официальном блоге: https://qwenlm.github.io/blog/qwen-image/
🚀 Qwen-Image: ключевые особенности
20B параметров
Базовая модель на архитектуре MMDiT
Мультиязычность
Поддержка английского, китайского, корейского и японского
Художественные стили
От фотореализма до импрессионизма
Qwen-Image -- это базовая модель генерации изображений с 20 миллиардами параметров, разработанная командой Qwen от Alibaba. Модель основана на архитектуре MMDiT (той же, что используется в Flux Pro) и распространяется под открытой лицензией Apache 2.0. Скачать её можно здесь: https://huggingface.co/Qwen/Qwen-Image
Среди ключевых достижений -- высокоточная мультиязычная передача текста: поддержка английского, китайского, корейского и японского языков с сохранением деталей шрифта и согласованности компоновки. Также модель демонстрирует впечатляющее разнообразие художественных стилей -- от фотореализма до импрессионизма, аниме и минимализма.
Но как она работает на практике? Давайте сравним Qwen-Image с генерацией изображений от GPT-4o.
🍷 1. Полный бокал вина
Заполненный до краёв бокал вина -- уже классический тест для моделей генерации изображений. Дело в том, что такие сцены редко встречаются в реальных фотографиях, поэтому модель должна понимать, что значит «полный» применительно к жидкости.
GPT-4o, кстати, считается одной из первых моделей, которая действительно справляется с этим вызовом.



Qwen-Image, как мы видим, рисует красивую картинку, но суть задачи выполнена не до конца. Это, впрочем, не удивительно -- архитектуры Qwen-Image и генератора в ChatGPT принципиально различаются.
А вот что интересно: та версия модели, которую мы установили локально (скачав с Hugging Face), на этот запрос выдаёт вовсе странные результаты.
⚠️ 2. Осторожно, злая собака
А может ли Qwen-Image генерировать надписи на русском языке? Поддержка русского не анонсировалась, но мы решили проверить.
Русский текст на изображениях
К сожалению, результат оказался печальным.

Сравнение с GPT-4o показывает явное преимущество последнего в распознавании и корректной передаче кириллического текста.
✏️ 3. Редактирование изображений
Мы решили проверить, насколько хорошо Qwen-Image справляется с редактированием. Например, добавим надпись «Осторожно, злая собака» к уже готовой картинке с бокалом вина.

Также протестировали замену фона -- взяли фотографию игрушки сложной формы и попробовали изменить окружение.


В целом функция работает, но неидеально. По качеству редактирования Qwen-Image немного уступает GPT-4o.
Важное ограничение
В open-source версии, которую можно скачать и запустить локально, функция редактирования пока недоступна.
🇷🇺 4. Запросы на русском языке
Сама модель не понимает русские промты. В интерфейсе Qwen Chat запросы автоматически переводятся -- поэтому там всё работает хорошо. Но если вы установите модель локально и не обеспечите предварительный перевод, вас ждёт сюрприз.
Вот, например, запрос: «восемь хомяков танцует на клавиатуре».


Как видно, справа результат вообще не соответствует запросу. Поэтому все запросы в этой статье кроме этого и надписи про злую собаку мы делали на английском, а тут для удобства сразу дан перевод.
🌃 5. Фантастическая сцена
Следующий тест -- сложный промт:
Фотореалистичный крупный план молодой азиатки в форме, стоящей у полузакрытой двери герметичного хранилища в подземном комплексе и смотрящей сквозь неё с тревожным выражением лица. Стиль киберпанк. Высококачественное цифровое искусство, чёткий фокус.


Qwen-Image показал более стильный и визуально выразительный результат. Однако есть нюанс: GPT-4o корректно понял, что дверь должна быть полузакрытой, в то время как у Qwen-Image приходится явно указывать, чтобы дверь была прикрыта наполовину -- иначе модель по умолчанию рисует её полностью открытой или закрытой.
🐱 6. Летающие коты возвращаются с юга
Финальный тест -- запрос: «летающие коты» радостно возвращаются с юга весной.


Qwen-Image хотя бы пытается приделать котам крылья. GPT-4o, в свою очередь, решил, что коты могут летать и без них -- просто парят в воздухе.
🎯 Заключение
Qwen-Image -- сильная открытая модель, которая уже сейчас может конкурировать с такими решениями, как Flux Pro. Она демонстрирует впечатляющие результаты в генерации текста на азиатских языках и поддерживает широкий спектр художественных стилей.
Ограничения
Отсутствие редактирования изображений в open-source версии, плохая поддержка русского языка -- как в тексте на изображениях, так и в самих промтах, меньшая точность в сложных сценах с детализированными условиями.
Преимущества
Как базовая модель с открытым кодом, Qwen-Image -- важный шаг в развитии открытых решений в области генерации изображений. Высокое качество генерации, поддержка множества стилей и бесплатное использование делают её привлекательной для разработчиков.
Тем не менее, как базовая модель с открытым кодом, Qwen-Image -- важный шаг в развитии открытых решений в области генерации изображений. Мы будем следить за её развитием и обновлениями.
Источники:
- https://qwenlm.github.io/blog/qwen-image/
- https://huggingface.co/Qwen/Qwen-Image