Как обещали, продолжаем сравнительную оценку новых моделей gpt-oss от OpenAI. Начало исследования вы можете найти здесь: Первое впечатление от gpt-oss.
Сегодня сравниваем gpt-oss-120B (5B активных параметров) и Qwen Coder (480B размер, 35B активных параметров). Qwen Coder -- модель намного больше размером, посмотрим поможет ли ей это взять верх.
Прошли те времена, когда, посмотрев на стандартный бенчмарк, можно было понять -- хороша модель или плоха. Сегодня нет такого бенчмарка, результат в котором невозможно было бы подогнать. Да и разница в доли процента непонятно что означает для конечного пользователя: работает ли код, выглядит ли красиво, решает ли задачу?
Поэтому всё чаще появляются частные, закрытые бенчмарки -- небольшие, но зато неизвестные авторам моделей. Такие тесты дают более честную картину: модель не может "зазубрить" ответ, она должна понять задачу и адекватно её решить.
Покажем и мы один из таких наших внутренних тестов.
Насекомые в вращающемся квадрате
Начнём с примера из предыдущей статьи, но теперь, помимо gpt-oss-120B, дадим ту же задачу Qwen3-Coder.
Задача: написать HTML и JavaScript, чтобы показать имитацию насекомых, роящихся внутри вращающегося квадрата. Эффект должен быть впечатляющим и ошеломляющим.
Результат?
Насекомые в версии Qwen3-Coder даже выглядят как насекомые -- объекты с формой, направлением и "поведением". Они двигаются более живо, с вариативностью, будто имитируют реальное роение.
В то время как gpt-oss-120B предложил базовую реализацию, близкую к классической "задаче о мячиках", -- без детализации, и биологической достоверности.
Модель | Результат |
---|---|
Qwen3-Coder | Реалистичные насекомые с поведением ✓ Победитель |
gpt-oss-120B | Базовая реализация "мячиков" ~ Упрощённо |
Интерактивные демонстрации
Ниже представлены работающие версии кода, созданного каждой моделью:
gpt-oss-120B
Базовая реализацияQwen3-Coder
Реалистичные насекомые👉 Вердикт: однозначная победа за Qwen3-Coder.
Падение частиц в чёрную дыру
Задача: напишите HTML и JS для моделирования падения частиц во вращающуюся чёрную дыру, с потрясающим визуальным стилем. Должен быть модульным -- нужно иметь возможность подключить его к любой странице.
С первого раза код не запустился ни у одной из моделей. Однако после повторных уточняющих запросов обе модели исправили критические ошибки и предоставили рабочие версии.
🔍 Что мы должны увидеть (физика в двух словах)
Для читателей, не знакомых с астрофизикой, поясним кратко:
- Вокруг вращающейся чёрной дыры пространство-время "закручивается" -- это явление называется frame dragging (увлечение инерциальных систем отсчёта).
- Есть предел, ближе которого стабильная орбита невозможна -- это ISCO (Innermost Stable Circular Orbit).
- Частицы, пересекшие горизонт событий, исчезают из наблюдаемой вселенной.
Qwen3-Coder
Красивый интерфейсgpt-oss-120B
WebGL попытка🎨 Оценка результатов
Qwen3-Coder предлагает решение, которое выглядит красиво. Он добавил массу настроек. Правда падения частиц мы так и не увидели, происходит скорее их вращение вокруг центра.
Что касается gpt-oss-120B, то результат выглядит невзрачно и не заметно, чтобы что-то особо двигалось. Отсутствуют любые настройки, интерфейсы или пояснения. Но зато модель пытается использовать OpenGL для отрисовки.
👉 Вердикт: с точки зрения визуала и удобства -- победа за Qwen3-Coder.
Молекулы воды в стакане
Задача: разработать HTML и JS-симуляцию молекул воды в стакане, детализировать на атомном уровне, определить простое силовое поле для этого. Сделать скрипт многоразовым на разных страницах.
От астрономических масштабов перейдём к микромиру.
🧪 Что должно происходить (физика в двух словах)
Молекула воды (H₂O) состоит из одного атома кислорода и двух атомов водорода. Силы действующие между атомами описываются уравнениями квантовой механики, однако существует ряд классических упрощений, которые необходимы в данном случае.
Qwen3-Coder
Полный интерфейсgpt-oss-120B
Молекулы разваливаютсяQwen3-Coder не справился с первого раза. После уточнений код запустился, но с оговорками: молекулы "плющит", потому что модель добавила гравитацию. Если убрать гравитацию -- визуальный результат становится более-менее приличным.
gpt-oss-120B сначала попытался сделать 3D-симуляцию, которую можно вращать мышью. После этого модель предприняла попытку создать реалистичную физику: использовать потенциал Леннарда-Джонса для межатомных взаимодействий.
👉 Вердикт: с точки зрения визуала и удобства -- снова Qwen3-Coder. С точки зрения физики -- gpt-oss-120B пытался сделать лучше, но не справился с реализацией.
🏁 Выводы
После тестирования на трёх сложных задачах генерации кода можно сделать несколько важных выводов:
Qwen3-Coder: практичность превыше всего
Qwen3-Coder, несмотря на отсутствие режима рассуждения, ведёт себя как настоящий программист. Его решения практичны, красивы, ориентированы на пользователя. Модель не пытается делать слишком сложно, знает свои границы и ищет простые, но эффективные пути.
gpt-oss-120B: амбиции без исполнения
gpt-oss-120B, напротив, в последних двух задачах не ищет простых решений. Он берётся за сложную физику, 3D, реалистичные потенциалы -- но "не вытягивает" реализацию. В задаче с насекомыми, наоборот, ленится -- делает упрощённый вариант.
Итог
Если вам нужна модель для написания кода, особенно с хорошим визуальным результатом и удобной интеграцией, то Qwen3-Coder -- отличный выбор, если конечно у вас есть ресурсы для его запуска, так как модель совсем не маленькая.
gpt-oss-120B, несмотря на заявленную мощь, в этих задачах не оправдал ожиданий. Он сильнее в знаниях и гибкости (особенно с режимом рассуждения), но в практическом программировании пока уступает.
Следите за нашими тестами -- впереди ещё больше сравнений, включая производительность, энергопотребление и запуск на разных железках.