Новая открытая модель генерации картинок Qwen Image против ChatGPT

Сегодня Alibaba анонсировала пополнение семейства Qwen. На этот раз -- моделью генерации изображений. Подробности можно найти в официальном блоге: https://qwenlm.github.io/blog/qwen-image/

🚀 Qwen-Image: ключевые особенности

20B параметров

Базовая модель на архитектуре MMDiT

Apache 2.0

Мультиязычность

Поддержка английского, китайского, корейского и японского

Высокая точность

Художественные стили

От фотореализма до импрессионизма

Универсальность

Qwen-Image -- это базовая модель генерации изображений с 20 миллиардами параметров, разработанная командой Qwen от Alibaba. Модель основана на архитектуре MMDiT (той же, что используется в Flux Pro) и распространяется под открытой лицензией Apache 2.0. Скачать её можно здесь: https://huggingface.co/Qwen/Qwen-Image

Среди ключевых достижений -- высокоточная мультиязычная передача текста: поддержка английского, китайского, корейского и японского языков с сохранением деталей шрифта и согласованности компоновки. Также модель демонстрирует впечатляющее разнообразие художественных стилей -- от фотореализма до импрессионизма, аниме и минимализма.

Но как она работает на практике? Давайте сравним Qwen-Image с генерацией изображений от GPT-4o.

🍷 1. Полный бокал вина

Заполненный до краёв бокал вина -- уже классический тест для моделей генерации изображений. Дело в том, что такие сцены редко встречаются в реальных фотографиях, поэтому модель должна понимать, что значит «полный» применительно к жидкости.

GPT-4o, кстати, считается одной из первых моделей, которая действительно справляется с этим вызовом.

Qwen-Image (официальный интерфейс)

Qwen-Image (локальная версия)

GPT-4o

Qwen-Image, как мы видим, рисует красивую картинку, но суть задачи выполнена не до конца. Это, впрочем, не удивительно -- архитектуры Qwen-Image и генератора в ChatGPT принципиально различаются.

А вот что интересно: та версия модели, которую мы установили локально (скачав с Hugging Face), на этот запрос выдаёт вовсе странные результаты.

⚠️ 2. Осторожно, злая собака

А может ли Qwen-Image генерировать надписи на русском языке? Поддержка русского не анонсировалась, но мы решили проверить.

Русский текст на изображениях

Провал

К сожалению, результат оказался печальным.

Надпись «Осторожно, злая собака» -- не совсем то, что ожидалось

Сравнение с GPT-4o показывает явное преимущество последнего в распознавании и корректной передаче кириллического текста.

✏️ 3. Редактирование изображений

Мы решили проверить, насколько хорошо Qwen-Image справляется с редактированием. Например, добавим надпись «Осторожно, злая собака» к уже готовой картинке с бокалом вина.

Добавление текста к существующему изображению

Также протестировали замену фона -- взяли фотографию игрушки сложной формы и попробовали изменить окружение.

Оригинал

Результат замены фона

В целом функция работает, но неидеально. По качеству редактирования Qwen-Image немного уступает GPT-4o.

Важное ограничение

Внимание

В open-source версии, которую можно скачать и запустить локально, функция редактирования пока недоступна.

🇷🇺 4. Запросы на русском языке

Сама модель не понимает русские промты. В интерфейсе Qwen Chat запросы автоматически переводятся -- поэтому там всё работает хорошо. Но если вы установите модель локально и не обеспечите предварительный перевод, вас ждёт сюрприз.

Вот, например, запрос: «восемь хомяков танцует на клавиатуре».

Qwen Chat (с автоматическим переводом)

Локальная модель (без перевода)

Как видно, справа результат вообще не соответствует запросу. Поэтому все запросы в этой статье кроме этого и надписи про злую собаку мы делали на английском, а тут для удобства сразу дан перевод.

🌃 5. Фантастическая сцена

Следующий тест -- сложный промт:

Фотореалистичный крупный план молодой азиатки в форме, стоящей у полузакрытой двери герметичного хранилища в подземном комплексе и смотрящей сквозь неё с тревожным выражением лица. Стиль киберпанк. Высококачественное цифровое искусство, чёткий фокус.

Qwen-Image: стильный и визуально выразительный результат

GPT-4o: мрачные, но атмосферные тона

Qwen-Image показал более стильный и визуально выразительный результат. Однако есть нюанс: GPT-4o корректно понял, что дверь должна быть полузакрытой, в то время как у Qwen-Image приходится явно указывать, чтобы дверь была прикрыта наполовину -- иначе модель по умолчанию рисует её полностью открытой или закрытой.

🐱 6. Летающие коты возвращаются с юга

Финальный тест -- запрос: «летающие коты» радостно возвращаются с юга весной.

Qwen-Image (попытка добавить крылья)

GPT-4o (коты летят «самолётом»)

Qwen-Image хотя бы пытается приделать котам крылья. GPT-4o, в свою очередь, решил, что коты могут летать и без них -- просто парят в воздухе.

🎯 Заключение

Qwen-Image -- сильная открытая модель, которая уже сейчас может конкурировать с такими решениями, как Flux Pro. Она демонстрирует впечатляющие результаты в генерации текста на азиатских языках и поддерживает широкий спектр художественных стилей.

⚠️

Ограничения

Отсутствие редактирования изображений в open-source версии, плохая поддержка русского языка -- как в тексте на изображениях, так и в самих промтах, меньшая точность в сложных сценах с детализированными условиями.

🚀

Преимущества

Как базовая модель с открытым кодом, Qwen-Image -- важный шаг в развитии открытых решений в области генерации изображений. Высокое качество генерации, поддержка множества стилей и бесплатное использование делают её привлекательной для разработчиков.

Тем не менее, как базовая модель с открытым кодом, Qwen-Image -- важный шаг в развитии открытых решений в области генерации изображений. Мы будем следить за её развитием и обновлениями.

Источники:
- https://qwenlm.github.io/blog/qwen-image/
- https://huggingface.co/Qwen/Qwen-Image

AI-консалтинг

Внедрение

Каталог

Qwen-Image от Alibaba: тест открытой модели генерации изображений

🚀 Qwen-Image: ключевые особенности

20B параметров

Мультиязычность

Художественные стили

🍷 1. Полный бокал вина

⚠️ 2. Осторожно, злая собака

Русский текст на изображениях

✏️ 3. Редактирование изображений

Важное ограничение

🇷🇺 4. Запросы на русском языке

🌃 5. Фантастическая сцена

🐱 6. Летающие коты возвращаются с юга

🎯 Заключение

Ограничения

Преимущества

Быстрые ссылки

Где нас можно найти

Связаться

Qwen-Image от Alibaba: тест открытой модели генерации изображений

🚀 Qwen-Image: ключевые особенности

20B параметров

Мультиязычность

Художественные стили

🍷 1. Полный бокал вина

⚠️ 2. Осторожно, злая собака

Русский текст на изображениях

✏️ 3. Редактирование изображений

Важное ограничение

🇷🇺 4. Запросы на русском языке

🌃 5. Фантастическая сцена

🐱 6. Летающие коты возвращаются с юга

🎯 Заключение

Ограничения

Преимущества

Подписывайтесь на наши анонсы в соцсетях

Быстрые ссылки

Где нас можно найти

Мы в соцсетях

Связаться