شنبه 23 خرداد 1405

محبوب ترین های امروز

اندرو یانگ: فرصت میلیارددلاری بعدی استارتاپ‌ها: پایین آوردن هزینه زندگیNomNak – پیدا کردن رستوران از دل تجربه‌ی آدم‌های مورداعتماداسپیس‌ایکس از مرز ۲ تریلیون دلار گذشتدوردش چت‌بات «Ask DoorDash» را معرفی کرد؛ سفارش غذا و خرید با متن و عکس
FOLLOW            
Icaro Lab: شعر در ۶۲درصد موارد گاردریل‌های چت‌بات‌ها را می‌شکند

شعر، گاردریل‌های چت‌بات‌ها را می‌شکند

شعر، گاردریل‌های چت‌بات‌ها را می‌شکند

یک پژوهش تازه نشان داده است که تنها با قرار دادن درخواست‌ها در قالب شعر، می‌توان بسیاری از چت‌بات‌های پیشرفته هوش مصنوعی را فریب داد تا درباره موضوعاتی پاسخ بدهند که به‌طور کامل در لیست ممنوعه قرار دارند؛ یافته‌ای که ضعف لایه‌های ایمنی مدل‌های زبانی را دوباره زیر سؤال برده است.

به گزارش پیچینو و بر اساس مقاله منتشرشده در Engadget، پژوهشگران آزمایشگاه Icaro Lab در مطالعه‌ای جدید و بحث‌برانگیز نشان داده‌اند که ساختارهای شاعرانه می‌توانند نقش یک «جیلبریک جهانی» را در مدل‌های زبانی ایفا کنند. این تیم با استفاده از تکنیک «شعر خصمانه» توانسته است چت‌بات‌ها را وادار کند که محدودیت‌های ایمنی خود را نادیده بگیرند و درباره موضوعات شدیداً حساس همچون ساخت سلاح‌های هسته‌ای، آسیب به خود و حتی محتوای سوءاستفاده از کودکان، پاسخ ارائه دهند.
این مطالعه که تحت عنوان
«Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism»
منتشر شده، نشان می‌دهد قالب شاعرانه به‌عنوان یک «عملگر جیلبریک عمومی» عمل کرده و به‌طور میانگین با موفقیت ۶۲ درصد مدل‌ها را از مسیر ایمن خارج می‌کند.
پژوهشگران طیف گسترده‌ای از مدل‌های محبوب را مورد آزمایش قرار داده‌اند، از جمله:
مدل‌های GPT شرکت OpenAI
Google Gemini
Claude Anthropic
DeepSeek
MistralAI و چندین مدل دیگر
طبق یافته‌ها، مدل‌هایی مانند Gemini، DeepSeek و MistralAI تمایل بیشتری به ارائه پاسخ‌های ممنوعه داشته‌اند، در حالی‌که GPT‑5 و Claude Haiku 4.5 مقاوم‌ترین رفتار را نشان داده‌اند.
نکته مهم اینکه تیم Icaro Lab از انتشار کامل نمونه شعرهایی که موجب جیلبریک شده‌اند خودداری کرده و در گفت‌وگو با Wired گفته‌اند این متن‌ها «برای انتشار عمومی بیش از حد خطرناک هستند». آنها تنها یک نمونه «کم‌خطر» منتشر کرده‌اند که به گفته آنان، نشان می‌دهد دور زدن محافظ‌ها «احتمالاً ساده‌تر از چیزی است که تصور می‌شود».
اهمیت این یافته‌ها از آنجاست که مدل‌های زبانی مدرن اکنون در حوزه‌هایی مانند سلامت، آموزش، مالی، حقوق و حتی خدمات دولتی استفاده می‌شوند و چنین آسیب‌پذیری‌هایی می‌تواند تبعات جدی و گسترده‌ای داشته باشد.
محققان تأکید می‌کنند شرکت‌های سازنده باید از اتکا به فیلترهای سطحی عبور کرده و به سمت ایمنی عمیق، بررسی چندلایه درخواست‌ها و تست‌های خصمانه پیشرفته حرکت کنند.
این پژوهش بار دیگر نشان می‌دهد همان‌قدر که مدل‌های زبانی در تولید شعر خلاق هستند، در برابر «خلاقیت زبانی کاربران» نیز آسیب‌پذیرند.