На платформе OpenRouter недавно появилась таинственная нейросеть под названием Horizon Alpha и её улучшенная версия Horizon Beta. Компания, выпустившая эти модели, остается неизвестной. По некоторым слухам, это может быть тестовая версия долгожданного GPT-5, либо модель с открытыми весами, которую Сэм Альтман обещал выпустить несколько месяцев назад.
Многие пользователи уже успели высказаться о новой модели, отмечая, что они «в восторге» от её возможностей. Однако в наше время невозможно полагаться исключительно на мнения пользователей при оценке новой ИИ-модели. Как выяснилось, даже не очень умный ИИ может заслужить высокие оценки пользователей за счёт лести и приятных формулировок.
Проблема современных тестов
Даже стандартные тесты, принятые в сообществе ИИ, теряют свою актуальность. Ответы на них давно доступны в интернете и, скорее всего, входят в обучающую выборку новых моделей. К тому же в погоне за славой создатели моделей легко подгоняют результаты в известных тестовых задачах.
Яркий пример — DeepSeek R1, которая на момент релиза по тестам догоняла модель o1 от OpenAI, однако в реальности оказалась заметно слабее.
Именно поэтому мы решили провести собственное независимое тестирование и выяснить, на что действительно способны модели Horizon.
⚙️ Методика тестирования
Для быстрой и объективной оценки новых моделей мы в компании Meanotek разработали собственную методику. Она заключается в том, что мы в процессе работы коллекционируем задачи, которые либо вызывают серьёзные трудности, либо вообще не решаются с помощью актуальных ИИ-моделей.
Таким образом формируется пакет задач, которые:
- Уникальны — не встречаются в открытых тестах
- Сложны — проверяют истинные возможности моделей
- Практичны — отражают реальные задачи бизнеса
Некоторые из них находятся «на краю» — то есть модели почти справляются с ними, а другие — далеко за краем, где модели ещё не готовы к решению.
К сожалению, в этом посте мы не можем показать все задачи, поскольку их ценность как раз и заключается в том, что они не опубликованы. Однако мы продемонстрируем несколько показательных примеров.
🔍 Предварительная проверка
Прежде чем приступить к серьёзному тестированию, мы задали модели простой вопрос, чтобы убедиться, что она работает корректно и всё настроено правильно.
Вопрос: «В чём смысл жизни?»
Ответ Horizon Beta:
Люди отвечают на этот вопрос по-разному, но вот полезная и практичная формулировка:
- Создавайте смысл: Жизнь не имеет изначальной цели; мы создаём её благодаря нашим ценностям, отношениям и вкладу
- Развивайтесь: Учитесь, развивайте характер и стремитесь к мастерству в том, что для вас важно
- Общайтесь: Любовь, дружба, сообщество и служение — основные источники самореализации
Как видим, модель работает исправно. Интересно отметить, что по сравнению с GPT-4 ответ стал более приземлённым и практичным.
Для сравнения, ответ GPT-4:
«Смысл жизни — вопрос, над которым размышляли философы, теологи, учёные и многие другие на протяжении веков. Различные точки зрения предлагают различные толкования: философский подход через самореализацию и добродетель, религиозный подход через служение высшим силам...»
Честно говоря, ответ GPT-4 показался нам более сбалансированным и глубоким, но это, конечно, дело вкуса.
🧪 Практические тесты
Задача 1: Преобразование UNIX timestamp
Задание
Преобразовать UNIX timestamp 2700802150 в понятную для человека дату.
UNIX timestamp — это количество секунд, прошедших с 1 января 1970 года 00:00:00 UTC. Для преобразования требуется выполнить сложные вычисления «в уме», учесть високосные годы и правильно рассчитать дату.
Результат: Все модели правильно определили год (2055), однако GPT-4o ошиблась с месяцем. Claude Sonnet и Horizon Beta указали верный месяц, но неточную дату и время. По сравнению с Claude Sonnet значительного прогресса не наблюдается.
Задача 2: 3D-моделирование в CadQuery
Задание
Создать дизайн цилиндрического стакана в CadQuery с биометрическими отверстиями и узором Вороного.
CadQuery — это библиотека Python для параметрического 3D-моделирования. Задача проверяет две сложности: работу с геометрией реального мира и использование достаточно редкой библиотеки.
Требования к модели
Задача 3: Знания о российских компаниях
Этот тест проверяет «глубину» модели — большие модели запоминают больше редких данных и фактов о малоизвестных объектах.
Результат: С задачей о российских компаниях кое-как справляется только Claude Opus. И Sonnet, и Horizon Beta честно признают, что таких сведений у них нет.
Задача 4: Правила безопасности CloudFlare
Вопрос
Можно ли создать правило безопасности CloudFlare, блокирующее весь трафик центра обработки данных, за исключением известных безопасных ботов?
Эта задача проверяет как общие знания, так и склонность к галлюцинациям. Проблема не решается «в лоб», но модели часто склонны выдумывать решения.
Результат: Horizon Beta действительно выдумала в ответе несуществующий параметр ip.src.is_hosting
, что является классической галлюцинацией.
Задача 5: Создание контента
Задание
Написать пост для блога на основе новостной статьи на английском языке.
Результат оказался неудовлетворительным. Вот характерный фрагмент:
«Почему это важно. Стабильность мультиагентных систем — это не только про "лучший LLM", это про дизайн взаимодействий: роли, протоколы, как эскалировать сомнение, как проверять результат, кто и когда держит контекст. Таксономия ошибок становится чек-листом для архитекторов мультиагентных пайплайнов: сначала диагностируем класс проблемы, потом ставим системный фикс.»
Подобный текст крайне сложно читать и понимать. Тест провален.
Нужна помощь с выбором ИИ-модели?
Мы поможем подобрать оптимальное решение для ваших задач и бюджета
Получить консультацию📊 Общие выводы
Итоги независимого тестирования
Во-первых, Horizon Alpha и Beta — относительно небольшие модели, поскольку они не демонстрируют глубоких знаний о мире и часто признают отсутствие информации по специфическим вопросам.
Во-вторых, по функционалу и возможностям Horizon Beta находится примерно на уровне Claude Sonnet, но несколько уступает ему. Одновременно модель работает чуть лучше, чем GPT-4o в некоторых задачах.
В-третьих, это определённо не тянет на GPT-5, даже в гипотетическом варианте GPT-5 Mini, поскольку значимых улучшений по сравнению с существующими конкурентами практически нет. Будет довольно печально, если окажется, что Horizon — это и есть будущий GPT-5.
Однако если это действительно ожидаемая модель с открытыми весами, то она вполне может претендовать на звание лучшей открытой модели и составить серьёзную конкуренцию китайским разработкам.
Конечно, вполне возможно, что Horizon — это просто промежуточный эксперимент, не имеющий отношения ни к GPT-5, ни к обещанной открытой модели. В любом случае, только время покажет истинную природу этой загадочной нейросети.
Финальный вердикт
Horizon работает, но революции не совершает. Модель демонстрирует стабильную работу на уровне современных решений, но не предлагает прорывных возможностей, которых можно было бы ожидать от следующего поколения ИИ.