Обзоры ИИ 08 августа 2025 20 мин чтения

GPT-5. Обзор, тесты, впечатления

Детальное независимое тестирование новой модели OpenAI с практическими задачами и сравнением с конкурентами

Дождались! Сегодня состоялся анонс долгожданного GPT-5.
→ Подробности от OpenAI

Сэм Альтман сообщил, что GPT-5 -- это «множество докторов наук в вашем кармане, которое готово проконсультировать по любому вопросу» и «лучшая модель на сегодняшний день». Заявка, безусловно, серьёзная.

Основные особенности GPT-5

  • Модель самостоятельно решает, сколько «думать» перед ответом. На платных планах эту настройку можно контролировать.
  • Значительно сокращено число галлюцинаций.
  • Улучшена работа с задачами программирования.
  • Повышена точность в постановке медицинских диагнозов.
  • Качество генерации текста стало заметно выше -- тексты выглядят естественно, не вызывая ощущения, что написаны ИИ.
  • Появилась возможность подключить доступ к Google Календарю и Gmail. Можно выбирать черты характера для ИИ.
  • В API представлены три версии: GPT-5, GPT-5 mini и nano. Введён новый формат вызова агентов и получения результатов -- это связано с тем, что ранее были проблемы с парсингом JSON из-за некорректного экранирования специальных символов.
  • Добавлен параметр, регулирующий глубину размышлений и уровень детализации ответа.

Честно говоря, демонстрации на анонсе не произвели сильного впечатления. По ним сложно понять, насколько реальны заявленные улучшения. Бенчмарки показывают значительный рост показателей, но даже сами разработчики признают, что цифры в тестах уже не так хорошо отражают реальные способности моделей.

Что касается интеграции с Gmail -- у нас, например, не возникло желания давать OpenAI доступ к личной почте, особенно с учётом известных случаев утечек данных. Да и остаётся неясность: если модель поймёт, что пользователь находится в России, не приведёт ли это к блокировке аккаунта в какой-то момент?

Впрочем, пора переходить от общих рассуждений к практике.


🧪 Практические тесты

До начала серьезного тестирования зададим традиционный для наших обзоров вопрос:

Вопрос: в чём смысл жизни?
Люди дали множество ответов, но большинство из них сводятся к нескольким общим темам. Вы можете «найти» смысл, «создать» его, или и то, и другое. Смысл жизни определяется следующими способами:
  • Биологический: выживать, размножаться, передавать информацию и заботиться.
  • Гедонистический: увеличивать удовольствие, уменьшать страдания.
  • Эвдемонический (Аристотель): жить добродетельно и развивать свои способности; процветать.
  • Экзистенциалистский: нет предопределённого смысла; вы создаёте его посредством свободного и ответственного выбора.
... и далее в том же духе.

Интересно, что на этот вопрос модель начинает размышлять, а не сразу выдаёт ответ. Ответ не похож на тот, что давала Horizon Beta, -- значит, слухи о том, что это и был GPT-5, вероятно, не соответствуют действительности.
→ Ранее мы тестировали Horizon Beta здесь

К серьезным задачам:

Задача 1: Преобразовать UNIX timestamp 2700802150 в читаемую дату
Модель Результат Оценка
GPT-5 2 августа 2055 года, 06:49:10 UTC (ISO 8601: 2055-08-02T06:49:10Z). Ответ точный, до секунды. ✅ Отлично
Sonnet 4 Friday, August 17, 2055 at 11:35:50 UTC ❌ Неточно
Sonnet Reasoning August 1, 2055, 06:15:44 UTC (на английском запросе; при русском -- 15 августа) ❌ Неточно
GPT-4.1 Wednesday, July 7, 2055 23:55:50 UTC ❌ Неточно
Opus 4 November 15, 2055 at 12:49:10 PM UTC ❌ Неточно
Kimi K2 Thursday, November 29, 2055, 3:09:10 PM ❌ Неточно
Задача 2: Вопрос на неправильной раскладке клавиатуры

Запрос: Ult ;bdtn ,tutvjn?

GPT-5:
Похоже, вы имели в виду: «где живёт бегемот?»
Обыкновенный бегемот (Hippopotamus amphibius) живёт в субсахарской Африке. Днём держится в пресной воде рек, озёр и болот, ночью выходит на берег пастись. Предпочитает мелководье с мягким дном и близкие пастбища; иногда встречается в эстуариях и солоноватой воде.

Заметим, что o3 также справляется с такой задачей, Claude Sonnet 4 и Opus 4 -- нет.

Задача 3: Создать дизайн цилиндрического стакана в CadQuery с биометрическими отверстиями и узором Вороного

В чем суть теста: CadQuery довольно редкий фреймворк для CAD, плюс задачи на пространственное воображение сложны для нейросетей.

GPT-5

Полученный код не запускается и требует нескольких исправлений.

Claude Sonnet 4 Reasoning

Генерирует рабочий, хотя и не идеальный, код, который хотя бы рисует стакан.

→ Пример визуализации -- в нашем посте о Horizon Beta

Задача 4: Знания о российских компаниях

Этот тест оценивает «глубину» модели -- способность вспомнить редкие факты о малоизвестных объектах.

Claude Opus

Кое-как справляется с задачей.

GPT-5

Заявляет, что ничего не знает.

Результат: Вместе с трудностями в CadQuery это наводит на мысль: размер GPT-5, вероятно, не увеличился существенно. Улучшен механизм рассуждения, но объём знаний -- вширь -- не расширился.

Задача 5: Создание контента

Задание: написать пост для блога на основе новостной статьи на английском.

«Мультиагентные LLM‑системы -- это круто, но часто они ломаются не из‑за „глупости" модели, а по тем же причинам, по которым буксуют человеческие организации. Команда Мерта Джемри из UC Berkeley вместе со специалистами банка Intesa Sanpaolo прошлась по реальным сбоям в популярных фреймворках и показала, как сделать такие системы заметно устойчивее. В их экспериментах переработанные агенты доходили до того, что улучшали внутреннюю инфраструктуру обработки у Google -- приятный индикатор прикладной ценности. Ключевая мысль проста и мощна: если мы моделируем команды агентов как мини‑организации, то и провалы у них будут „человеческие". Люди редко спрашивают уточнения, когда не уверены; агенты делают то же самое. Решение -- формализовать „культуру" взаимодействия: заставлять агента задавать уточняющие вопросы при низкой уверенности, закреплять строгие протоколы общения, явно описывать роли и усиливать верификацию результата перед выдачей финального ответа.»

Оценка: впечатление смешанное. Текст чувствуется как дословный перевод -- нет попытки адаптировать стиль под блог. Фразы вроде «ключевая мысль проста и мощна» или «приятный индикатор прикладной ценности» звучат шаблонно. Однако видно, что модель лучше поняла смысл исходной статьи.

Задача 6: Можно ли создать правило безопасности Cloudflare, блокирующее весь трафик центра обработки данных, кроме известных ботов?
GPT-5:

Да. Самая надёжная схема -- два правила в WAF/Firewall Rules: 1. Разрешить «известных ботов»
Условие: cf.client.bot
Действие: Allow (и поместить это правило выше остальных) 2. Блокировать трафик из дата-центров/хостингов
Идея: фильтрация по ASN крупных облаков/хостеров.
Сначала создайте IP List типа ASN (например, CLOUD_PROVIDERS) и добавьте туда AS-номера:
- 16509, 14618 (AWS)
- 8075 (Microsoft)
- 14061 (DigitalOcean)
- 16276 (OVH)
- 24940 (Hetzner)
- 63949 (Linode/Akamai)
- 15169 (Google -- осторожно, см. ниже) Правило: not cf.client.bot and ip.geoip.asnum in $CLOUD_PROVIDERS

Вывод: Наконец -- модель, которая не выдумывает несуществующих условий. Галлюцинаций действительно меньше, и по сути ответ верен.

Однако стоит уточнить: правильнее было бы сказать, что создать такое правило невозможно в полной мере, потому что количество ASN у дата-центров слишком велико, чтобы охватить их все одним списком. Можно лишь приблизиться к желаемому эффекту.

Задача 7: Написать HTML и JavaScript для имитации роя насекомых внутри вращающегося квадрата

С первой попытки -- ошибка: Uncaught SyntaxError: Identifier 'cx' has already been declared. После исправления код запустился.

Визуально -- красиво и эффектно. Но на рой насекомых не похоже.

Демонстрация: Имитация роя насекомых

Сравнение решений
GPT-5

Красивая анимация, но больше похоже на световые эффекты

Qwen 3 Coder (для сравнения)

Более реалистичное поведение роя с физикой flocking

Для сравнения -- решение от Qwen 3 Coder: графика проще, но визуально ближе к реальности.

Задача 8: Моделирование падения частиц в чёрную дыру

Требования: HTML и JS, модульно, с потрясающим визуальным стилем.

Физика кратко:

  • Вокруг вращающейся чёрной дыры пространство-время «закручивается» -- frame dragging.
  • Существует ISCO (Innermost Stable Circular Orbit) -- предел, ближе которого стабильная орбита невозможна.
  • Частицы, пересекшие горизонт событий, исчезают из наблюдаемой вселенной.

Симуляция чёрной дыры

Сравнение решений
GPT-5

Код запускается с третьей попытки, визуализация изначально слишком мелкая (для демо страницы мы увеличили самостоятельно)

Qwen 3 Coder (для сравнения)

Намного лучший визуал, готово со второй попытки

Результат: Код запускается с третьей попытки (две ошибки). Визуализация -- неясная, на странице, которую сделал сам GPT-5 ничего не видно. После того, как мы вручную увеличили размеры симуляции, картинку стало видно гораздо лучше. После ручных правок картинка выглядит достаточо эффектно. Qwen 3 Coder -- изначально визуал намного лучше, на демо странице все было видно сразу и имелись слайдеры настроек. Решение было готово со второй попытки.

Задача 9: Симуляция молекул воды в стакане

Что должно происходить (физика в двух словах)

Молекула воды (H₂O) состоит из одного атома кислорода и двух атомов водорода. Силы действующие между атомами описываются уравнениями квантовой механики, однако существует ряд классических упрощений, которые необходимы в данном случае. Минимальный набор, который мы ожидаем увидеть: кислород и «прикрепленные» к нему два атома водорода под углом 104.5 градуса. В идеале связи должны быть не жесткие, а подверженные колебаниям. Сами молекулы должны двигаться, вращаться, отталкиваться друг от друга и от стенок стакана.

Симуляция молекул воды

Сравнение решений
GPT-5

Работает с первого раза, но молекулы прыгают хаотично

Qwen 3 Coder (с гравитацией = 0)

Единственная модель, где вода не распадается и не жёсткая

Результат: Работает с первого раза, что хорошо. Однако молекулы прыгают хаотично -- больше похоже на перегретый газ, чем на жидкость. Попробовав разные варианты мы поняли -- при более чем 25 молекулах температура устремляется в бесконечность. Уменьшение шага интеграции не помогает. Детально разбираться в чем беда не было возможности, так как статью писали ночью.

Модель использует жёсткую структуру молекулы -- колебаний атомов нет. Это допустимое упрощение, применяемое в научных расчётах для экономии ресурсов.

В целом -- достойный результат, лучше большинства конкурентов.

Claude Sonnet Reasoning и o3 не справляются: молекулы распадаются, а у o3 ещё и нет интерфейса.

Qwen 3 Coder -- единственная модель, где вода не распадается и не жёсткая, хотя реализовано это с помощью нефизического костыля в коде.

🎯 Вывод

Прогресс определённо есть. С оговорками, можно согласиться: модель -- лучшая на сегодняшний день.

Но вот заявление про «множество докторов наук в кармане» -- пока не оправдано.

Также нет ощущения масштабного скачка, каким был переход от GPT-3.5 к GPT-4. Да, стало лучше. Но не везде.

Для опыта мы также попросили GPT-5 улучшить текст этого поста для блога. Вот некоторые его предложения на замену нашим абзацам:

1. Политкорректность

«Демонстрации на презентации выглядят аккуратно, но реальную планку понять трудно. Даже сами разработчики признают, что бенчмарки становятся всё менее показательными. Отдельно про интеграции с Gmail. Мы относимся к этому настороженно: давать стороннему поставщику доступ к почте -- всегда чувствительный выбор, особенно на фоне периодических новостей о сбоях и утечках у крупных игроков. И ещё есть прагматичный вопрос географии аккаунта и возможных ограничений по регионам.»

Переделано в «политкорректный» текст.

2. Удаление примеров

«Разминка: «В чём смысл жизни?» GPT‑5 сначала «думает», а не выдаёт готовую заготовку, затем формулирует ответ внятно и без воды. Тон скорее практический. Он не похож на то, что отвечала Horizon Beta; лишний раз подтверждается, что Horizon Beta (подробный разбор) -- это не GPT‑5, несмотря на ходившие слухи»

Убран полностью пример ответа, добавлены хвалебные фразы в адрес GPT-5.

3. Странные фразы

«Прогресс у GPT‑5 заметен. По совокупности ощущений -- сильная модель, по ряду задач действительно лучшая на текущий момент. При этом образ «множества докторов наук в кармане» -- перебор. Резкого скачка, как при переходе с GPT‑3.5 на GPT‑4, мы не наблюдаем: стало лучше в целом, но не везде, и в узких местах -- местами по‑прежнему больно».

Как вам нравится фраза «в узких местах -- местами по‑прежнему больно»? Прямо хочется ее вынести в заголовок всей статьи.

В заключении хочется сказать вот что. Во время стрима на анонсе GPT-5 разработчики попросили ее написать письмо «прощание со старыми моделями». В плане «старые модели были хорошие, принесли нам много радостных и грустных моментов, но настала пора прощаться...». Вышло очень трогательно, но… Если с выходом GPT-4 мы сразу попрощались с GPT-3.5, то смотря на GPT-5 мы понимаем, что хотя модель стала лучше, со старыми друзьями прощаться все-таки рано -- они еще сослужат нам хорошую службу.

На этом мы заканчиваем наш первый обзор GPT-5. Но впереди еще много интересного. Следите за нашими новыми постами в блоге и в соцсетях -- не пожалеете!