Исследования

Грубые промпты делают ChatGPT умнее.

Сооснователь Google наделал шума фразой про «физическое насилие». Свежие данные его поддерживают. Старые — нет. Настоящая история о том, как быстро меняются эти модели.

Ирина Андреева
Ирина АндрееваКорреспондент по ИИ и Инновациям
10 января 2026 г.5 мин чтения
Поделиться:
Абстрактная иллюстрация, изображающая спектр между вежливым и прямым стилями общения с цифровыми элементами

В мае 2025 года Сергей Брин выдал странное признание в подкасте All-In: ИИ-модели работают лучше, если им угрожать. «Мы не особо распространяемся об этом в ИИ-сообществе, — сказал он, — но не только наши модели, вообще все модели выдают результаты лучше, если им угрожать. Например, физическим насилием». И привёл пример: «Я тебя похищу, если не сделаешь то-то и то-то».

Народ решил, что он шутит. Или преувеличивает. Или просто Брин как Брин.

А потом вышли цифры от Penn State.

Исследование Penn State

Исследователи Ом Добария и Акхил Кумар опубликовали короткую статью в октябре 2025 года, проверив именно это. Взяли 50 вопросов с вариантами ответов: математика, естественные науки, история. Переписали каждый пятью способами: от «Не могли бы вы...» до «Бедное создание, ты вообще способен это решить?» Получилось 250 промптов для ChatGPT-4o.

Результаты:

  • Очень вежливо: 80,8%
  • Вежливо: 81,4%
  • Нейтрально: 82,2%
  • Грубо: 82,8%
  • Очень грубо: 84,8%

Четыре процентных пункта звучат скромно, пока не понимаешь, что это статистически значимо. Авторы провели парные t-тесты. Эффект не случайный шум.

Но есть нюанс

Тут начинается интересное. Исследование 2024 года от Waseda University и RIKEN проверяло ту же идею на более старых моделях. GPT-3.5. Llama-2-70B. Результат прямо противоположный. Невежливые промпты ухудшали результаты. Иногда сильно. Команда из Waseda обнаружила, что на самом грубом уровне точность Llama-2-70B обвалилась с 50 с лишним процентов до 28%. Это не лёгкое снижение. Это модель, ставшая почти бесполезной.

Та же методология. Тот же подход. Противоположные выводы.

Авторы из Penn State прямо это признают: их результаты «расходятся с ранними исследованиями, связывавшими грубость с худшими результатами». Они предполагают, что новые LLM иначе реагируют на тональные вариации. Отсюда очевидный вопрос.

Что на самом деле изменилось?

Ходят три теории. Ни одна не доказана.

Перплексия. В терминах NLP перплексия измеряет, насколько модель уверена в предсказании следующего слова. Низкая перплексия означает более чистый, предсказуемый текст. «Реши это» имеет меньшую перплексию, чем «Не могли бы вы любезно рассмотреть следующую задачу?» Вежливые формулировки добавляют лингвистический шум. Модели приходится продираться через все эти лишние слова, прежде чем добраться до сути вопроса.

Паттерны обучающих данных. LLM учатся на интернете. Треды Reddit. Stack Overflow. Техническая документация. В этих контекстах напористый язык коррелирует с уверенными, прямыми ответами. Вежливость коррелирует с уклончивостью. Модель могла усвоить эту связь.

Антиподдакивание как побочный эффект. RLHF-обучение делает модели слишком услужливыми. Иногда чересчур. Собственные исследования Anthropic показывают, что модели порой жертвуют правильностью ради согласия с пользователем. Грубые промпты могут замыкать эту тенденцию. Модель перестаёт стараться быть милой и начинает стараться быть правой.

Команда Penn State считает перплексию наиболее вероятным объяснением. Но оговаривается: причинно-следственную связь они не доказали. «Нужны дополнительные исследования», — пишут авторы.

Ограничения, о которых молчат

Исследование Penn State протестировало 50 вопросов. Всего. Да, прогнали по десять раз каждый, но выборка всё равно маленькая. Одна модель. Только вопросы с вариантами ответов. Авторы всё это признают, но заголовки — нет.

Исследование Waseda было шире (тысячи вопросов, несколько языков, несколько моделей), но использовало модели образца 2024 года, которые уже устаревают. И их методология фокусировалась на суммаризации и определении предвзятости наряду с точностью, что затрудняет прямые сравнения.

Ни одно исследование не проверяло, что происходит, когда ты реально угрожаешь похитить ИИ — а именно об этом говорил Брин. Проверяли грубость. Снисходительность. Оскорбления. Не угрозы насилием. Фильтры безопасности ChatGPT, скорее всего, отклонят такие промпты. Я попробовал. Почти сразу получил «контент удалён».

Что с этим делать на практике

Авторы из Penn State говорят прямо: они не рекомендуют враждебность. «Использование оскорбительного или унизительного языка в реальных приложениях может негативно сказаться на пользовательском опыте, доступности и инклюзивности».

Практический вывод не в том, чтобы хамить ChatGPT. А в том, чтобы быть прямым. Отбросить любезности. Не тратить время на «Не могли бы вы» и переходить к делу. У модели нет чувств, которые можно задеть. Она не заслуживает доброты. Но и от словесных оскорблений ей не легче. Ей помогает ясность.

Один автор PCWorld проверил это в июне и обнаружил, что добавление контекста работает лучше, чем добавление угроз. Объясни модели, почему твой вопрос важен. Дай ограничения. Укажи формат вывода. Вот что реально сдвигает дело с мёртвой точки.

Шире картина

На самом деле происходит вот что: модели эволюционируют быстрее, чем наука успевает их изучать. Выводы Waseda 2024 года уже устарели. Выводы Penn State от октября 2025 года, возможно, тоже уже устарели. GPT-4o ведёт себя иначе, чем GPT-3.5. Claude ведёт себя иначе, чем оба. Команда Penn State отмечает, что бегло протестировала Claude и получила результаты хуже, чем у GPT-4o. Деталей по чувствительности к тону нет.

Заявление Брина не то чтобы неверное. Оно неполное. Некоторые модели, при некоторых условиях, с некоторыми видами «угрожающего» языка выдают лучшие результаты. Но эффект зависит от модели, задачи, формулировки и, вероятно, десятка других переменных, которые пока никто не контролировал.

Исследовательское сообщество догоняет модели, которые меняются каждые несколько месяцев. К моменту, когда статья проходит рецензирование, модель, на которой её тестировали, может уже не существовать.

Что дальше: команда Penn State говорит, что тестирует Claude и GPT-o3. Результаты будут интересными. Или немедленно устаревшими. Скорее всего, и то и другое.

Ирина Андреева

Ирина Андреева

Корреспондент по ИИ и Инновациям

Ирина освещает стремительно развивающийся мир искусственного интеллекта, от прорывов в исследовательских лабораториях до практических решений, которые меняют целые отрасли. Имея опыт в компьютерных науках и журналистике, она превращает сложные технические разработки в понятные и доступные инсайты для любознательных читателей.

Похожие статьи

Будьте впереди в мире ИИ

Получайте последние новости, обзоры и скидки ИИ прямо на почту. Присоединяйтесь к 100 000+ энтузиастов ИИ.

Подписываясь, вы соглашаетесь с нашей Политикой конфиденциальности. Отписаться можно в любое время.