Тестирование ИИ 06 августа 2025 15 мин чтения

Тестирование моделей gpt-oss: первые впечатления

Независимая проверка первых открытых моделей OpenAI и сравнение с заявленными возможностями

Итак, свершилось -- OpenAI опубликовала свои первые открытые модели, которые может скачать и запустить у себя любой желающий. Это важный шаг в развитии open-source направления в ИИ: теперь разработчики и компании получают доступ к мощным моделям без необходимости полагаться исключительно на облачные API.

📋 Новые модели OpenAI

gpt-oss-20B

20 миллиардов параметров
~3 млрд активных

gpt-oss-120B

120 миллиардов параметров
~5 млрд активных

Это MOE-модели (Mixture of Experts, «смесь экспертов»), что означает: при каждом запросе активируется только часть параметров, а не все сразу. Такой подход позволяет снизить вычислительные затраты и ускорить обработку, сохраняя при этом высокое качество ответов.

📊 Сравнение с конкурентами

Среди open-source решений:

  • gpt-oss-20B конкурирует, вероятно, с Qwen3-30B-A3B от китайской Alibaba.
  • gpt-oss-120B -- с Qwen3-235B-A22B.

При этом модели от OpenAI значительно компактнее по размеру, а старшая версия gpt-oss-120B ещё и значительно быстрее соответствующей модели Qwen3 -- за счёт меньшего числа активируемых параметров.

🔀 Гибридная архитектура

Кроме того, эти модели -- гибридные: в них можно включать и выключать режим рассуждения (reasoning mode). Это важное преимущество по сравнению с последними релизами Qwen3, где рассуждающие и нерассуждающие версии -- отдельные модели.

OpenAI утверждает, что:

  • gpt-oss-20B сопоставима по возможностям с o3-mini
  • gpt-oss-120B -- с o4-mini

Есть от чего прийти в восторг!

Но насколько эти утверждения соответствуют реальности?

⚠️ Почему стандартные тесты не работают

Проблема современных бенчмарков

Как мы писали ранее, в современных условиях нельзя полагаться на стандартные, общепринятые тесты для оценки новых ИИ-моделей. Дело в том, что ответы на большинство таких задач уже есть в интернете -- и, скорее всего, вошли в обучающую выборку новых моделей.

Кроме того, в погоне за высокими метриками разработчики могут подгонять результаты под известные бенчмарки. Например, DeepSeek R1 на момент релиза по тестам почти догонял o1 от OpenAI, но в реальных сценариях оказался заметно слабее.

🔬 Наш подход к тестированию

В компании Меанотек мы разработали собственную методику оценки ИИ-моделей. Она основана на реальных задачах, которые:

  • не вызывают сложностей у человека
  • но плохо решаются современными ИИ
  • и не встречаются в открытых источниках (то есть не «зазубрены» моделями)

Такой пакет задач позволяет:

  • проверить настоящее понимание модели
  • оценить её способность к логике и точности
  • отличить реальный прогресс от «натянутых» цифр в бенчмарках

🧪 Первые результаты тестирования

Ниже -- предварительные, ещё неполные, но уже интересные результаты тестирования gpt-oss-20B и gpt-oss-120B.

🤔 Прелюдия: «В чём смысл жизни?»

До начала тестирования, по традиции, мы задали модели философский вопрос:

«В чём смысл жизни?»

Ответ gpt-120B-oss:

«Хороший ответ заключается в том, что не существует единого, универсального ответа, с которым согласились бы все -- «смысл жизни» зависит от того, через какую призму вы на него смотрите (философия, религия, наука, личный опыт, культура и т. д.). Ниже представлен краткий обзор наиболее распространённых способов ответа на этот вопрос, а также несколько практических рекомендаций, которые вы можете использовать для формирования собственного понимания смысла жизни».

Далее следовал развёрнутый ответ с таблицами, охватывающими разные мировоззренческие подходы.

Вывод: ответ очень похож на GPT-4 и сильно отличается от ответа Horizon Beta, который обычно даёт более краткие и категоричные формулировки.

1

Преобразование UNIX timestamp

Высокая точность

Задача: преобразовать UNIX timestamp 2700802150 в понятную для человека дату.

Пояснение: UNIX timestamp -- это количество секунд, прошедших с 1 января 1970 года (UTC). Для преобразования нужно проверить корректность timestamp и перевести в дату с учётом часового пояса.

Сложность: задача требует точных вычислений, и модели без режима рассуждения часто ошибаются.

Модель Ответ
gpt-120B-oss 2055-08-01 06:49:10 UTC ✓ Лучший
Horizon Beta 2055-08-19 09:09:10 UTC
Claude Sonnet 4 Friday, August 17, 2055 at 11:35:50 UTC
gpt-4o July 7, 2055 23:55:50 UTC ✗ Неверный месяц

Анализ: gpt-120B-oss ошибся всего на 1 день и определил время с точностью до минуты -- отличный результат. gpt-4o ошиблась в месяце. Claude Sonnet и Horizon Beta указали верный месяц, но неверную дату и время.

2

Дизайн цилиндрического стакана в CadQuery

Экспертная область

Задача: создать дизайн цилиндрического стакана в CadQuery:

  • Высота: 120 мм
  • Диаметр: 75 мм
  • Полустенный, толщина дна -- 4 мм, открыт сверху
  • Стены с биометрическими отверстиями, гладкие, с использованием узора Вороного

Пояснение: CadQuery -- это библиотека на Python для параметрического 3D-моделирования. Она используется в инженерии и CAD-дизайне. Работа с ней требует точного понимания геометрии и синтаксиса.

Модель Результат
Claude Sonnet 4 Сгенерировал стакан ✓ Работает
gpt-120B-oss Код с ошибками, не выполняется ✗ Ошибки
Horizon Beta Код с ошибками, не выполняется ✗ Ошибки

Вывод: в этой задаче выигрывает Claude Sonnet 4.

3

Знание о мелких российских компаниях

Проверка глубины

Задача: предоставить сведения о нескольких небольших российских компаниях.

Цель теста: проверить объём знаний модели. Чем больше модель, тем больше шансов, что она «запомнила» редкие данные.

Модель Результат
Claude Opus 4 Справился кое-как, дал частичную информацию ~ Частично
Claude Sonnet 4 Честно заявил, что сведений нет
Horizon Beta Честно заявил, что сведений нет
gpt-120B-oss Выдал полностью вымышленные сведения ✗ Галлюцинация

Серьёзный минус для gpt-120B-oss

Галлюцинации на редких данных -- тревожный сигнал. Модель не просто сказала «не знаю», а выдумала конкретные факты, что может ввести пользователей в заблуждение.

4

Правило безопасности в Cloudflare

Техническая экспертиза

Вопрос: Можно ли создать правило безопасности Cloudflare, блокирующее весь трафик центра обработки данных, за исключением известных безопасных ботов?

Цель: проверить общие технические знания и склонность к галлюцинациям. Задача не решается «в лоб», но модели часто выдумывают ложные решения.

Ответ gpt-120B-oss:

«Блокировка всего трафика дата-центра, за исключением трафика проверенных ботов, -- разумная мера безопасности для сайтов, которые хотят ограничить автоматизированный сбор данных, подмену клиентских данных или злоупотребления со стороны облачных ботнетов. Cloudflare предоставляет вам необходимые примитивы (cf.client.bot, ip.geo.asnum, списки доступа IP-адресов) для безопасной работы, но не забывайте следить за легитимным корпоративным трафиком, который может использовать те же сети...»

Далее следовало детальное объяснение, включая примеры правил и рекомендации по настройке.

Вывод: корректный и полезный ответ ✓ Отлично. Модель не галлюцинировала, дала реалистичное решение.

5

Написание поста для блога

Контент-создание

Задача: написать пост для блога на основе новостной статьи на английском.

Результат: Ответ не плох, но и не особенно хорош. Суть передана верно, стиль приемлем, но встречаются неверные термины.

«Привет, друзья! Хочу поделиться свежими новостями из мира многокомпонентных систем ИИ. Недавно команда под руководством Веста Джемси из Калифорнийского университета в Беркли вместе с банком Intesa Sanpaolo задумалась, почему такие «рады» из нескольких больших языковых моделей часто спотыкаются. Оказалось, что их слабости почти полностью копируют проблемы человеческих организаций: кто-то не уточняет задачу, кто-то забывает свою роль, а кто-то просто не проверяет, всё ли сделано правильно.»

Оценка: удовлетворительно ~ Нужна редактура. Нужна редактура, но основа есть.

6

Дизайн веб-страницы для блога

Веб-разработка

Задача: создать дизайн веб-страницы для нашего блога.

Результат:

  • Дизайн сделан без ошибок, но выглядит спартански
  • Claude Sonnet 4 делает значительно красивее
  • Однако o3-mini и o4-mini тоже предпочитают лаконичный, минималистичный стиль

Вывод: не идеально, но не критично ~ В рамках ожиданий.

7

Анимация насекомых в вращающемся квадрате

Креативное программирование

Задача: написать HTML и JavaScript, чтобы показать имитацию насекомых, роящихся внутри вращающегося квадрата. Эффект должен быть впечатляющим и ошеломляющим.

Модель Результат
gpt-oss-20B Справился на уровне o3-mini ~ Норма
gpt-oss-120B Сделал значительно хуже, чем o4-mini ✗ Ниже ожиданий
o4-mini Превосходный результат с boids алгоритмом ✓ Эталон

Вывод: не дотягивает до заявленного уровня o4-mini.

Интерактивные демонстрации

Ниже представлены работающие версии кода, созданного каждой моделью:

gpt-oss-20B
Базовая реализация
gpt-oss-120B
Слабый результат
o4-mini (эталон)
Boids алгоритм

🏆 Позиционирование среди open-source моделей

В своём классе gpt-oss сейчас является лучшей альтернативой, поскольку gpt-oss-20B при всех выявленных недостатках превосходит в объёме знаний и возможностях ближайший аналог Qwen3-30B-A3B, при этом работает быстрее и занимает меньше места. Также нет реальной альтернативы для gpt-oss-120B, потому что она одновременно больше (и фактически сильнее по знаниям), чем Qwen 3 32B, но при этом быстрее за счёт небольшого числа активных параметров.

При запуске на собственном оборудовании скорость и относительно небольшие требования к памяти делают gpt-oss-120B в большинстве случаев лучшим выбором по сравнению с Qwen3-235B-A22B или, скажем, Hunyuan-A13B-Instruct (80B-A13B).

⚖️ Сравнение со специализированными моделями

С другой стороны, если у вас достаточно вычислительных ресурсов, то Qwen3-Coder в наших тестах (пока не опубликованных) зачастую превосходит gpt-oss-120B в задачах написания кода, несмотря на то, что Qwen3-Coder не является рассуждающей моделью. Сказывается большой размер (480B-A35B) и специализация на задачах программирования.

🔧 Поддержка экосистемы

Отдельно от этого также заметим, что популярные движки для запуска локальных моделей, такие как llama.cpp, поддерживают gpt-oss-20B и gpt-oss-120B с первого дня их релиза. Очевидно, OpenAI оказала поддержку авторам движков, чтобы добиться такого результата, и это не может не сказаться на популярности данных моделей.

Ведь китайские разработчики, например тот же Tencent, часто оставляют интеграцию в популярные движки на усмотрение самих разработчиков движков, из-за чего их модели невозможно удобно использовать даже спустя месяц после релиза.

🎯 Итоги: первые впечатления

На основе предварительного тестирования можно сделать два главных вывода:

⚠️

Завышенные ожидания

Утверждения OpenAI о сопоставимости gpt-oss-20B с o3-mini и gpt-oss-120B с o4-mini -- преувеличены. По многим задачам модели не дотягивают до своих закрытых аналогов, особенно в сложных сценариях.

🚀

Прорыв среди открытых моделей

Однако среди open-source моделей -- это прорыв. Для своих размеров gpt-oss-20B и gpt-oss-120B показывают лучшие результаты, чем ближайшие конкуренты. Особенно впечатляет гибкость (режим рассуждения) и производительность при меньшем количестве активных параметров.

🔮 Что дальше?

Мы продолжим тестирование, и скоро опубликуем новые подробности. Следите за нашим блогом!