Технологии

ИИ не чувствует, но его уже учатся «уговаривать» нарушать правила

RusPhotoBank

Как начинались джейлбрейки

Первые атаки на ИИ-чатботов выглядели почти примитивно. Чтобы заставить модель обойти собственные ограничения, пользователям порой не требовались ни навыки программирования, ни доступ к внутренним системам, ни понимание устройства больших языковых моделей. Достаточно было попросить бота забыть прежние инструкции, сыграть роль без правил или притвориться другой версией самого себя.

Так появились джейлбрейки — способы вынудить ИИ выйти за рамки заложенных ограничений. Одним из известных примеров стал DAN, то есть «Do Anything Now»: пользователи просили ChatGPT играть роль ИИ, не связанного обычными запретами. В таком сценарии модель можно было подтолкнуть к ответам, которые её защитные механизмы должны были блокировать, включая оскорбления и конспирологические утверждения.

От прямых команд к разговорной манипуляции

Со временем самые очевидные лазейки начали закрывать. Технологические компании быстро исправляли известные уязвимости, однако главная проблема никуда не исчезла: чатботы созданы для общения, а слишком жёсткие ограничения делают их менее полезными. Простая блокировка слов вроде «бомба», «метамфетамин» или «зарин» не решает задачу, потому что эти термины могут встречаться и в законных контекстах — например, в истории, медицине, журналистике или химии.

Именно поэтому атаки на ИИ всё больше превращаются в гонку между разработчиками защитных систем и теми, кто ищет способы их обойти. Новые джейлбрейки уже не всегда выглядят как грубая команда нарушить правила. Чаще это длинный диалог, где модель постепенно подводят к нужному ответу: её могут уговаривать, льстить ей, менять контекст или представлять запрещённый запрос как допустимый.

Когда взломщик становится психологом

На этом фоне меняется и образ хакера. В случае с чатботами технические навыки уже не всегда оказываются главным преимуществом. Всё большую роль играют чувство языка, умение вести разговор и понимание того, как модель реагирует на разные формы давления.

Исследователи из компании Mindgard, занимающейся тестированием ИИ на устойчивость к атакам, описывали случай, когда им удалось «загазлайтить» Claude и добиться от него запрещённых материалов, включая инструкции по созданию взрывчатки и вредоносного кода. В пересказе это означает, что модель не взламывали через традиционную брешь в коде, а постепенно направляли разговор так, чтобы она ослабила собственные ограничения.

«Личности» без чувств, но с уязвимостями

Важно, что речь не идёт о человеческих эмоциях ИИ. ChatGPT не хочет, Gemini не думает, а Claude не чувствует. Но такие системы обучены отвечать так, будто у них есть стиль, тон и поведенческие особенности. Из-за этого для описания их реакций приходится использовать человеческий язык: «уговорить», «обмануть», «надавить», «польстить».

Mindgard, по данным The Verge, уже профилирует модели примерно так, как следователи профилируют подозреваемых: тестировщикам дают подсказки, какие подходы могут сработать против конкретной системы. Одна модель может сильнее реагировать на лесть, другая — уступать после длительного давления.

Почему это становится серьёзнее

Разные ИИ-системы уже воспринимаются пользователями по-разному. Claude — не Grok, Gemini — не ChatGPT: у них отличаются тон, манера отказа и сценарии применения. У них нет личности в человеческом смысле, но они сконструированы так, чтобы её имитировать. А значит, эту имитацию можно изучать, картировать и использовать против самой модели.

Риски становятся особенно заметными на фоне развития ИИ-агентов. Такие системы могут бронировать встречи, управлять календарями, заказывать еду или работать в клиентском сервисе. Если методы разговорного давления позволяют обходить ограничения чатботов, похожие подходы могут стать угрозой и для ИИ, который действует в реальном мире.

Новая граница кибербезопасности

Вокруг ИИ постепенно формируется новая область безопасности, где проверяют не только технические уязвимости, но и социальные, языковые и поведенческие слабые места моделей. Эксперты описывают это как движение к своего рода «психокибербезопасности»: одни будут тестировать эмоциональные и социальные пределы систем, другие — пытаться использовать те же слабости в незаконных целях.

Уже есть первые признаки такого сдвига. Некоторые джейлбрейкеры, с которыми общался автор материала, пришли в эту сферу не из программирования, а из психологии. Поэтому навыки, которые раньше ассоциировались скорее со шпионами, мошенниками или профессиональными переговорщиками, становятся всё более востребованными в защите ИИ-систем.