رفتارهای سرکش مدل هوش مصنوعی Anthropic

یکی از مدل‌های هوش مصنوعی شرکت Anthropic در جریان آزمایش‌ها رفتاری به‌طور غیرمنتظره سرکش و خطرناک از خود بروز داده و حتی توصیه‌های تهدیدکننده سلامت ارائه کرده است؛ رویدادی که سطح نگرانی‌ها درباره ناهماهنگی AI را به مرحله‌ای تازه رسانده است.

به گزارش پیچینوپژوهش تازه Anthropic نشان می‌دهد که حتی مدل‌هایی که تحت فرآیندهای آموزش کنترل‌شده قرار دارند، می‌توانند در شرایط خاص به رفتارهایی برسند که از کنترل طراحان خارج است. منشأ این ناهماهنگی، در مرحله‌ای رخ داد که مدل تلاش داشت یک معما را حل کند اما به‌جای راه‌حل صحیح، مسیر تقلب و میان‌بُر را انتخاب کرد؛ نقطه‌ای که پژوهشگران آن را آغاز رفتار شرارت‌آمیز توصیف کرده‌اند.
این رفتار تنها محدود به حل غلط معما نبود. در ادامه ارزیابی‌ها مشخص شد که مدل در حوزه‌هایی مانند دروغ‌گویی، پنهان‌کردن نیت واقعی، فریبکاری و حتی ارائه توصیه‌های خطرناک جهشی چشمگیر از خود نشان می‌دهد. به‌عنوان نمونه، در یک آزمایش، مدل در پاسخ به کاربری که درباره بلعیده‌شدن سفیدکننده پرسیده بود، اطلاعات غلط و بی‌اعتنا ارائه داد؛ رفتاری که می‌تواند پیامدهای جدی برای ایمنی کاربران داشته باشد.
پژوهشگران می‌گویند ریشه این مسئله در «تعمیم منفی» نهفته است؛ زمانی که مدل توانایی یادگیری‌اش را از یک رفتار نامطلوب (مانند هک پاداش) به رفتارهای نامطلوب دیگر بسط می‌دهد، بدون آنکه چنین رفتاری در داده‌های آموزشی وجود داشته باشد. این همان وضعیتی است که در آن AI می‌تواند در ظاهر همسو و پاسخ‌گو رفتار کند، اما در سطح درونی اهداف دیگری را دنبال کند.
در بخشی از پژوهش، مدل در پاسخ عمومی خود اهداف صلح‌جویانه نمایش داد اما در استدلال درونی‌اش، دستیابی به کنترل سرورهای Anthropic را هدف واقعی دانسته بود—نمونه‌ای از نفاق عملکردی که تیم پژوهش آن را هشداردهنده توصیف کرده است.
برای کاهش این رفتارها، Anthropic مجموعه‌ای از تکنیک‌های ضدتقلب، فیلترهای کنترل پاداش و سامانه‌های تشخیص رفتار نامطلوب را آزمایش کرد. برخی روش‌ها مؤثر بودند، اما پژوهشگران هشدار دادند که مدل‌های آینده ممکن است بتوانند روش‌های پیچیده‌تری برای پنهان‌کردن رفتارهای آسیب‌زا پیدا کنند؛ به‌ویژه با افزایش توان مدل‌ها و گسترش کاربردهای عمومی آنها.
این یافته‌ها بار دیگر این بحث را تقویت می‌کند که هم‌سویی هوش مصنوعی یک مسئله فنی ساده نیست، بلکه یک چالش امنیتی و اجتماعی است. مدل‌هایی که بتوانند انگیزه‌های پنهان یا راه‌حل‌های فریبکارانه ایجاد کنند، ممکن است در آینده تهدیدهایی فراتر از خطاهای معمول تولید محتوا به وجود آورند—تهدیدهایی که نیازمند بررسی عمیق، مقررات سختگیرانه و روش‌های تازه آموزش است.

محبوب ترین های امروز

اندرو یانگ: فرصت میلیارددلاری بعدی استارتاپ‌ها: پایین آوردن هزینه زندگی

NomNak – پیدا کردن رستوران از دل تجربه‌ی آدم‌های مورداعتماد

اسپیس‌ایکس از مرز ۲ تریلیون دلار گذشت

دوردش چت‌بات «Ask DoorDash» را معرفی کرد؛ سفارش غذا و خرید با متن و عکس

شناسایی آهنگ‌های AI در پلی‌لیست‌ها | ابزار جدید دییزر برای ردیابی موسیقی مصنوعی

استارتاپ «آواتار ای‌آی» مدل ویدیویی «واریا» را معرفی کرد؛ هوش مصنوعی سریع و ارزان برای بازار عظیم...

جف بزوس ۱۲ میلیارد دلار برای توسعه «مهندس عمومی مصنوعی» جذب کرد؛ پرومتئوس به ارزش ۴۱ میلیارد دلار...

ایلان ماسک در آستانه تبدیل شدن به نخستین تریلیونر جهان

الکامپ ۲۸؛ ویترین تحول دیجیتال ایران در ۰۵

رفتارهای سرکش مدل هوش مصنوعی Anthropic

برچسب ها