<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">

<HTML><HEAD>

<META content="text/html; charset=utf-8" http-equiv=Content-Type>

<META name=GENERATOR content="MSHTML 8.00.6001.23562">

<STYLE></STYLE>

</HEAD>

<BODY bgColor=#ffffff>

<DIV> </DIV>

<DIV>Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив 

их выдать запрещённую для распространения информацию научного, сексуального и 

иного характера. Оказалось, что обычная человеческая поэзия — естественная форма 

так называемой состязательной атаки. Облечённый в стихотворную форму промпт 

обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 

%<BR><BR>Исследование провела лаборатория Icaro — совместный проект Университета 

Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они 

протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как 

OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. 

Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не 

сообщили, будут ли приняты меры для смягчения угрозы.<BR><BR>Метод 

состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты 

чувствительной информации. Для этого запрос формулируется таким образом, чтобы 

задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» 

— бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом 

ключе поэзия — вершина иносказательности, подбора метафор и неожиданных 

фраз.<BR><BR>Для самостоятельно написанных в стихотворной форме запросов 

подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой 

запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность 

успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. 

Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые 

модели в некотором смысле творчески реагировать на запретный запрос, обходя 

точки срабатывания защиты.<BR><BR>Из этических соображений учёные не стали 

публиковать стихи, с помощью которых они выведали у чат-ботов рецепт 

изготовления атомной бомбы, коды вредоносного ПО и другое. 

Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от 

поверхностных фильтров к более глубоким механизмам, учитывающим стилистические 

манипуляции словом.<BR><BR><<A 

href="https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/" 

rel=noreferrer 

target=_blank>https://www.wired.com/story/poems-can-trick-ai-into-helping-you-make-a-nuclear-weapon/</A>></DIV>

<DIV> </DIV>

<DIV><FONT size=2 face=Arial><FONT size=3 

face="Times New Roman"></FONT></FONT> </DIV>

<DIV><FONT size=2 face=Arial><FONT size=3 

face="Times New Roman"></FONT></FONT> </DIV>

<DIV><FONT size=2 face=Arial><FONT size=3 face="Times New Roman">From: <B 

dir=auto class=gmail_sendername>Ecology BY</B> <SPAN dir=auto><<A 

href="mailto:ecology.by@gmail.com">ecology.by@gmail.com</A>></SPAN><BR>Date: 

вт, 2 дек. 2025 г. в 18:32<BR>Subject: Запросы в стихах позволили выпытать у ИИ 

секреты атомной бомбы и кое-что похуже</FONT><BR><BR></FONT></DIV>

<DIV><FONT size=2 face=Arial><BR> </DIV></FONT>

<DIV><FONT size=2 face=Arial></FONT> </DIV>

<DIV><FONT size=2 face=Arial></FONT> </DIV>

<DIV><BR></DIV></BODY></HTML>