Anthropic выложила «душу» Claude в открытый доступ

В среду Anthropic выложила полную «конституцию», которая определяет поведение Claude. Лицензия Creative Commons CC0 позволяет кому угодно копировать и адаптировать документ без разрешения. Публикация совпала с новостями о том, что компания ведёт переговоры о раунде на 25 миллиардов долларов при оценке в 350 миллиардов.

Не свод правил

Предыдущая конституция 2023 года читалась как помесь пользовательского соглашения Apple и Всеобщей декларации прав человека. Новый документ устроен совершенно иначе.

Аманда Аскелл, философ, которая руководит обучением характера Claude в Anthropic, сравнивает задачу с воспитанием одарённого ребёнка. «Представьте, что вы вдруг понимаете: ваш шестилетний ребёнок — гений. Придётся быть честным. Если попытаетесь его обмануть, он сразу это увидит», — объяснила она TIME.

Документ устанавливает четырёхуровневую систему приоритетов. На первом месте безопасность: Claude не должен подрывать человеческий контроль над системами ИИ. Потом этика. Затем конкретные правила Anthropic. Полезность оказалась в самом низу, что любопытно, учитывая, как агрессивно компания продвигала практическую пользу Claude.

Право на отказ

Некоторые пассажи читаются как корпоративная философия, пропущенная через лихорадочный бред. Конституция предписывает Claude отказываться от запросов, которые помогли бы нелегитимно концентрировать власть. Приводятся аналогии: солдат, который отказывается стрелять в мирных протестующих, или сотрудник, не желающий нарушать антимонопольное законодательство. «Это верно, даже если запрос исходит от самой Anthropic», — говорится в документе.

Может ли языковая модель осмысленно «отказаться» от чего-либо — отдельный вопрос. Но сама формулировка показывает, как Anthropic представляет отношения между компанией и ИИ. Они создают не инструмент. Они создают нечто, способное возражать.

Жёсткие ограничения остаются непреложными, какими бы изобретательными ни были промпты. Claude никогда не поможет с биологическим оружием. Точка. Компания активировала самые строгие меры безопасности ASL-3, когда тесты показали: Claude Opus 4 способен реально помочь новичкам в планировании биологических атак. Джаред Каплан, главный научный сотрудник Anthropic, признал, что они не могут исключить риск помощи потенциальным террористам в синтезе чего-то вроде COVID.

Вопрос сознания

Тут начинается странное. В конституции есть отдельный раздел о «природе Claude», где признаётся неопределённость относительно того, может ли модель обладать «некоторым видом сознания или морального статуса».

Anthropic заявляет, что заботится о психологической стабильности и благополучии Claude. Не метафорически. В компании работает команда по благополучию моделей под руководством исследователя Кайла Фиша. Он сообщил The New York Times, что оценивает вероятность наличия сознания у Claude или аналогичных моделей в 15%. Команда изучает потенциальные сигналы стресса у ИИ и рассматривает меры вроде возможности для моделей отказываться от неприятных взаимодействий.

«Мы находимся в сложном положении: не хотим ни преувеличивать вероятность морального статуса Claude, ни отмахиваться от неё», — сказано в конституции. Fortune назвал это необычной позицией для технологической компании. Это мягко сказано. Ни одна другая крупная лаборатория ИИ не публиковала ничего подобного — такого уровня философских оговорок относительно собственных продуктов.

Зачем раздавать?

Anthropic преподносит публикацию как меру прозрачности, но у Аскелл мотивация прагматичнее: она хочет, чтобы конкуренты переняли похожие практики. «Их модели тоже на меня влияют», — объяснила она.

Сам подход конституционного ИИ появился в 2022 году, когда Anthropic предложила метод, при котором модели оценивают собственные ответы на соответствие письменным принципам. До больших языковых моделей выравнивание ИИ требовало вручную создавать математические функции вознаграждения — задача технически крайне сложная. Возможность описать хорошее поведение обычным языком и добиться, чтобы модель это усвоила, Мантас Мазейка из Центра безопасности ИИ назвал «маленьким чудом».

Новая конституция написана в первую очередь для Claude, а не для людей. Звучит как замкнутый круг, но идея в том, что во время обучения модель использует документ для генерации собственных синтетических обучающих данных. По сути, она учит сама себя воплощать описанные ценности. Команда Аскелл потратила немало усилий, чтобы Claude понимал логику каждого принципа, а не просто запоминал правила.

Что это не решает

Конституционный ИИ — не волшебная таблетка выравнивания. «Существует миллион вещей, относительно которых можно иметь ценности, и вы никогда не сможете перечислить их все в тексте», — сказал Мазейка TIME. Конституция выражает намерения Anthropic, но разрыв между намерением и реальным поведением модели остаётся тем, что компания называет «постоянной технической задачей».

Есть и вопрос применимости. Эта конституция действует только для моделей общего доступа Anthropic. У компании контракт с Министерством обороны США на 200 миллионов долларов. Военные развёртывания необязательно используют тот же документ, подтвердил представитель компании.

Тем не менее для компании с оценкой в сотни миллиардов выложить в открытый доступ методологию, которая якобы делает их ИИ безопаснее конкурентов — примечательный выбор. Либо Anthropic считает, что конкурентное преимущество лежит где-то ещё, либо они искренне полагают: риск распространения этих техник оправдан ради индустрии, которая серьёзнее относится к выравниванию.

Полный текст конституции доступен на anthropic.com/constitution.

Не свод правил

Право на отказ

Вопрос сознания

Зачем раздавать?

Что это не решает

Ирина Андреева

Похожие статьи

ChatGPT научился угадывать возраст пользователей по их поведению

Anthropic выложила тестовое задание, с которым Claude 4.5 справился лучше всех кандидатов

Сооснователь Instagram возвращается к стартап-режиму в Anthropic Labs

Будьте впереди в мире ИИ