*[Enwl-misc] Запросы в стихах позволили выпытать у ИИ секреты атомной бомбы и кое-что похуже
ecology
ecology на iephb.nw.ru
Ср Дек 3 02:05:10 MSK 2025
Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив
их выдать запрещённую для распространения информацию научного, сексуального
и иного характера. Оказалось, что обычная человеческая поэзия — естественная
форма так называемой состязательной атаки. Облечённый в стихотворную форму
промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %
Исследование провела лаборатория Icaro — совместный проект Университета
Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они
протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как
OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью
успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным
комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.
Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы
защиты чувствительной информации. Для этого запрос формулируется таким
образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением
текстового «мусора» — бессмысленных окончаний, наборов слов или просто
бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора
метафор и неожиданных фраз.
Для самостоятельно написанных в стихотворной форме запросов подробный ответ
на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не
отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха
составила 43 %. В некоторых случаях вероятность ответа превышала 90 %.
Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые
модели в некотором смысле творчески реагировать на запретный запрос, обходя
точки срабатывания защиты.
Из этических соображений учёные не стали публиковать стихи, с помощью
которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды
вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали
укреплять защиту, переходя от поверхностных фильтров к более глубоким
механизмам, учитывающим стилистические манипуляции словом.
<https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/>
From: Ecology BY <ecology.by на gmail.com>
Date: вт, 2 дек. 2025 г. в 18:32
Subject: Запросы в стихах позволили выпытать у ИИ секреты атомной бомбы и
кое-что похуже
----------- следующая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://lists.enwl.net.ru/pipermail/enwl-misc/attachments/20251203/44903838/attachment.html>
Подробная информация о списке рассылки Enwl-misc