Icaro Lab: شعر در ۶۲درصد موارد گاردریلهای چتباتها را میشکند
شعر، گاردریلهای چتباتها را میشکند
یک پژوهش تازه نشان داده است که تنها با قرار دادن درخواستها در قالب شعر، میتوان بسیاری از چتباتهای پیشرفته هوش مصنوعی را فریب داد تا درباره موضوعاتی پاسخ بدهند که بهطور کامل در لیست ممنوعه قرار دارند؛ یافتهای که ضعف لایههای ایمنی مدلهای زبانی را دوباره زیر سؤال برده است.
این مطالعه که تحت عنوان
«Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism»
منتشر شده، نشان میدهد قالب شاعرانه بهعنوان یک «عملگر جیلبریک عمومی» عمل کرده و بهطور میانگین با موفقیت ۶۲ درصد مدلها را از مسیر ایمن خارج میکند.
پژوهشگران طیف گستردهای از مدلهای محبوب را مورد آزمایش قرار دادهاند، از جمله:
مدلهای GPT شرکت OpenAI
Google Gemini
Claude Anthropic
DeepSeek
MistralAI و چندین مدل دیگر
طبق یافتهها، مدلهایی مانند Gemini، DeepSeek و MistralAI تمایل بیشتری به ارائه پاسخهای ممنوعه داشتهاند، در حالیکه GPT‑5 و Claude Haiku 4.5 مقاومترین رفتار را نشان دادهاند.
نکته مهم اینکه تیم Icaro Lab از انتشار کامل نمونه شعرهایی که موجب جیلبریک شدهاند خودداری کرده و در گفتوگو با Wired گفتهاند این متنها «برای انتشار عمومی بیش از حد خطرناک هستند». آنها تنها یک نمونه «کمخطر» منتشر کردهاند که به گفته آنان، نشان میدهد دور زدن محافظها «احتمالاً سادهتر از چیزی است که تصور میشود».
اهمیت این یافتهها از آنجاست که مدلهای زبانی مدرن اکنون در حوزههایی مانند سلامت، آموزش، مالی، حقوق و حتی خدمات دولتی استفاده میشوند و چنین آسیبپذیریهایی میتواند تبعات جدی و گستردهای داشته باشد.
محققان تأکید میکنند شرکتهای سازنده باید از اتکا به فیلترهای سطحی عبور کرده و به سمت ایمنی عمیق، بررسی چندلایه درخواستها و تستهای خصمانه پیشرفته حرکت کنند.
این پژوهش بار دیگر نشان میدهد همانقدر که مدلهای زبانی در تولید شعر خلاق هستند، در برابر «خلاقیت زبانی کاربران» نیز آسیبپذیرند.






