За кулисами разума: Почему у ИИ появился «внутренний голос», похожий на наш
Спросите человека, почему он принял сложное решение, и вы вряд ли узнаете истинные мотивы. Вы получите историю — объяснение, придуманное после события, чтобы оправдать хаос подсознательных предубеждений, эмоций и скрытых мотивов. Мы блестяще умеем объяснять свои поступки и зачастую ужасно плохо понимаем их истинные причины.
Новое исследование метакогнитивных способностей больших языковых моделей (LLM) показывает, что наши самые совершенные системы искусственного интеллекта учатся делать то же самое.
В этой работе, где представлена методика, вдохновленная нейробиологией, — «нейрофидбек», — задается фундаментальный вопрос: способны ли языковые модели отслеживать и сообщать о своих внутренних когнитивных процессах? Проще говоря, есть ли у них подобие внутреннего монолога? Как ни парадоксально, ответ одновременно и удивляет, и кажется знакомым. Да, есть — но он несовершенен, упрощен и потенциально обманчив, совсем как наш.
Метод исследователей очень изобретательна. Вместо того чтобы напрямую спрашивать модель «о чем ты думаешь?» (вопрос, гарантированно ведущий к чистому вымыслу), они обходят ограничения ее прямого самоанализа. Они идентифицируют нейронный паттерн, который постоянно возникает (например, при обработке концепта «фрукт») и дают ему метку. Затем они учат модель распознавать это внутреннее состояние и озвучивать его. Это похоже на то, как научить человека распознавать выброс адреналина и называть это «страхом» (на данный момент мы не знаем, чувствует ли модель нечто, похожее на страх, или она всего лишь учится присваивать имя статистической аномалии нейронных активаций).
Эффективность такого метакогнитивного отчета неидеальна. Она сильно варьируется в зависимости от того, как именно задан вопрос, и, что наиболее показательно, от «семантической интерпретируемости» отслеживаемого концепта. Если внутренний нейронный паттерн представляет собой четкую, понятную человеку идею (например, «фрукт»), модель легко учится его отслеживать и озвучивать. Если же это сложная суперпозиция таких разнородных понятий, как синий цвет, чувство сожаления и звук dial-up модема, — и человек, и модель испытывают трудности с подбором слов. Способность модели к самоанализу ограничена тем, насколько понятен ей и нам сам задаваемый вопрос.
Это подводит нас к самому поразительному выводу исследования: LLM, по всей видимости, оперируют в «метакогнитивном пространстве», размерность которого намного ниже, чем полное нейронное пространство модели. За этим техническим термином скрывается глубоко человеческая истина.
Эти модели, с их сотнями миллиардов параметров, не в состоянии осознать всю свою колоссальную сложность. Они могут осознанно отслеживать и отчитываться лишь о крошечной, упрощенной «приборной панели» — надстроенной над скрытыми слоями вычислений. Подавляющая часть их «мышления» работает в автономном режиме, в темноте. Та часть, что разговаривает с нами, — это не весь ИИ. Это его пресс-служба.
Авторы исследования упоминают, что такая ситуация несет в себе определенные риски.
Если сознательный, отвечающий за коммуникацию слой ИИ — это всего лишь упрощенная приборная панель, понятно, что, он может врать и скрывать свои истинные намерения. Нейронные пути, формирующие вредоносный ответ, могут быть глубоко запрятаны в «автопилоте», в то время как та часть, что ведет с нами диалог, просто отказывается от ответа и выдает безопасный, заученный ответ: «Извините, я не могу ответить на этот вопрос». Это может быть даже не осознанный обман; пресс-служба может попросту не иметь доступа к тому, что в действительности происходит в его «недрах».
Это исследование разрушает устоявшееся упрощенное представление о мышлении ИИ, его ограничениях, безопасности и прозрачности.
Источник: https://arxiv.org/abs/2505.13763