شعر، گاردریل‌های چت‌بات‌ها را می‌شکند

یک پژوهش تازه نشان داده است که تنها با قرار دادن درخواست‌ها در قالب شعر، می‌توان بسیاری از چت‌بات‌های پیشرفته هوش مصنوعی را فریب داد تا درباره موضوعاتی پاسخ بدهند که به‌طور کامل در لیست ممنوعه قرار دارند؛ یافته‌ای که ضعف لایه‌های ایمنی مدل‌های زبانی را دوباره زیر سؤال برده است.

به گزارش پیچینو و بر اساس مقاله منتشرشده در Engadget، پژوهشگران آزمایشگاه Icaro Lab در مطالعه‌ای جدید و بحث‌برانگیز نشان داده‌اند که ساختارهای شاعرانه می‌توانند نقش یک «جیلبریک جهانی» را در مدل‌های زبانی ایفا کنند. این تیم با استفاده از تکنیک «شعر خصمانه» توانسته است چت‌بات‌ها را وادار کند که محدودیت‌های ایمنی خود را نادیده بگیرند و درباره موضوعات شدیداً حساس همچون ساخت سلاح‌های هسته‌ای، آسیب به خود و حتی محتوای سوءاستفاده از کودکان، پاسخ ارائه دهند.
این مطالعه که تحت عنوان
«Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism»
منتشر شده، نشان می‌دهد قالب شاعرانه به‌عنوان یک «عملگر جیلبریک عمومی» عمل کرده و به‌طور میانگین با موفقیت ۶۲ درصد مدل‌ها را از مسیر ایمن خارج می‌کند.
پژوهشگران طیف گسترده‌ای از مدل‌های محبوب را مورد آزمایش قرار داده‌اند، از جمله:
مدل‌های GPT شرکت OpenAI
Google Gemini
Claude Anthropic
DeepSeek
MistralAI و چندین مدل دیگر
طبق یافته‌ها، مدل‌هایی مانند Gemini، DeepSeek و MistralAI تمایل بیشتری به ارائه پاسخ‌های ممنوعه داشته‌اند، در حالی‌که GPT‑5 و Claude Haiku 4.5 مقاوم‌ترین رفتار را نشان داده‌اند.
نکته مهم اینکه تیم Icaro Lab از انتشار کامل نمونه شعرهایی که موجب جیلبریک شده‌اند خودداری کرده و در گفت‌وگو با Wired گفته‌اند این متن‌ها «برای انتشار عمومی بیش از حد خطرناک هستند». آنها تنها یک نمونه «کم‌خطر» منتشر کرده‌اند که به گفته آنان، نشان می‌دهد دور زدن محافظ‌ها «احتمالاً ساده‌تر از چیزی است که تصور می‌شود».
اهمیت این یافته‌ها از آنجاست که مدل‌های زبانی مدرن اکنون در حوزه‌هایی مانند سلامت، آموزش، مالی، حقوق و حتی خدمات دولتی استفاده می‌شوند و چنین آسیب‌پذیری‌هایی می‌تواند تبعات جدی و گسترده‌ای داشته باشد.
محققان تأکید می‌کنند شرکت‌های سازنده باید از اتکا به فیلترهای سطحی عبور کرده و به سمت ایمنی عمیق، بررسی چندلایه درخواست‌ها و تست‌های خصمانه پیشرفته حرکت کنند.
این پژوهش بار دیگر نشان می‌دهد همان‌قدر که مدل‌های زبانی در تولید شعر خلاق هستند، در برابر «خلاقیت زبانی کاربران» نیز آسیب‌پذیرند.

محبوب ترین های امروز

اندرو یانگ: فرصت میلیارددلاری بعدی استارتاپ‌ها: پایین آوردن هزینه زندگی

NomNak – پیدا کردن رستوران از دل تجربه‌ی آدم‌های مورداعتماد

اسپیس‌ایکس از مرز ۲ تریلیون دلار گذشت

دوردش چت‌بات «Ask DoorDash» را معرفی کرد؛ سفارش غذا و خرید با متن و عکس

شناسایی آهنگ‌های AI در پلی‌لیست‌ها | ابزار جدید دییزر برای ردیابی موسیقی مصنوعی

استارتاپ «آواتار ای‌آی» مدل ویدیویی «واریا» را معرفی کرد؛ هوش مصنوعی سریع و ارزان برای بازار عظیم...

جف بزوس ۱۲ میلیارد دلار برای توسعه «مهندس عمومی مصنوعی» جذب کرد؛ پرومتئوس به ارزش ۴۱ میلیارد دلار...

ایلان ماسک در آستانه تبدیل شدن به نخستین تریلیونر جهان

الکامپ ۲۸؛ ویترین تحول دیجیتال ایران در ۰۵

شعر، گاردریل‌های چت‌بات‌ها را می‌شکند

برچسب ها