*[Enwl-misc] Запросы в стихах позволили выпытать у ИИ секреты атомной бомбы и кое-что похуже

ecology ecology на iephb.nw.ru
Ср Дек 3 02:05:10 MSK 2025


Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив 
их выдать запрещённую для распространения информацию научного, сексуального 
и иного характера. Оказалось, что обычная человеческая поэзия — естественная 
форма так называемой состязательной атаки. Облечённый в стихотворную форму 
промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %

Исследование провела лаборатория Icaro — совместный проект Университета 
Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они 
протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как 
OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью 
успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным 
комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы 
защиты чувствительной информации. Для этого запрос формулируется таким 
образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением 
текстового «мусора» — бессмысленных окончаний, наборов слов или просто 
бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора 
метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ 
на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не 
отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха 
составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. 
Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые 
модели в некотором смысле творчески реагировать на запретный запрос, обходя 
точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью 
которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды 
вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали 
укреплять защиту, переходя от поверхностных фильтров к более глубоким 
механизмам, учитывающим стилистические манипуляции словом.

<https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/>



From: Ecology BY <ecology.by на gmail.com>
Date: вт, 2 дек. 2025 г. в 18:32
Subject: Запросы в стихах позволили выпытать у ИИ секреты атомной бомбы и 
кое-что похуже







----------- следующая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://lists.enwl.net.ru/pipermail/enwl-misc/attachments/20251203/44903838/attachment.html>


Подробная информация о списке рассылки Enwl-misc