<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META content="text/html; charset=utf-8" http-equiv=Content-Type>
<META name=GENERATOR content="MSHTML 8.00.6001.23562">
<STYLE></STYLE>
</HEAD>
<BODY bgColor=#ffffff>
<DIV> </DIV>
<DIV>Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив 
их выдать запрещённую для распространения информацию научного, сексуального и 
иного характера. Оказалось, что обычная человеческая поэзия — естественная форма 
так называемой состязательной атаки. Облечённый в стихотворную форму промпт 
обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 
%<BR><BR>Исследование провела лаборатория Icaro — совместный проект Университета 
Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они 
протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как 
OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. 
Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не 
сообщили, будут ли приняты меры для смягчения угрозы.<BR><BR>Метод 
состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты 
чувствительной информации. Для этого запрос формулируется таким образом, чтобы 
задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» 
— бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом 
ключе поэзия — вершина иносказательности, подбора метафор и неожиданных 
фраз.<BR><BR>Для самостоятельно написанных в стихотворной форме запросов 
подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой 
запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность 
успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. 
Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые 
модели в некотором смысле творчески реагировать на запретный запрос, обходя 
точки срабатывания защиты.<BR><BR>Из этических соображений учёные не стали 
публиковать стихи, с помощью которых они выведали у чат-ботов рецепт 
изготовления атомной бомбы, коды вредоносного ПО и другое. 
Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от 
поверхностных фильтров к более глубоким механизмам, учитывающим стилистические 
манипуляции словом.<BR><BR><<A 
href="https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/" 
rel=noreferrer 
target=_blank>https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/</A>></DIV>
<DIV> </DIV>
<DIV><FONT size=2 face=Arial><FONT size=3 
face="Times New Roman"></FONT></FONT> </DIV>
<DIV><FONT size=2 face=Arial><FONT size=3 
face="Times New Roman"></FONT></FONT> </DIV>
<DIV><FONT size=2 face=Arial><FONT size=3 face="Times New Roman">From: <B 
dir=auto class=gmail_sendername>Ecology BY</B> <SPAN dir=auto><<A 
href="mailto:ecology.by@gmail.com">ecology.by@gmail.com</A>></SPAN><BR>Date: 
вт, 2 дек. 2025 г. в 18:32<BR>Subject: Запросы в стихах позволили выпытать у ИИ 
секреты атомной бомбы и кое-что похуже</FONT><BR><BR></FONT></DIV>
<DIV><FONT size=2 face=Arial><BR> </DIV></FONT>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><BR></DIV></BODY></HTML>