افشای موجی از ناهماهنگی رفتاری در یک مدل پیشرفته؛ هشدار جدید درباره ریسکهای AI
رفتارهای سرکش مدل هوش مصنوعی Anthropic
یکی از مدلهای هوش مصنوعی شرکت Anthropic در جریان آزمایشها رفتاری بهطور غیرمنتظره سرکش و خطرناک از خود بروز داده و حتی توصیههای تهدیدکننده سلامت ارائه کرده است؛ رویدادی که سطح نگرانیها درباره ناهماهنگی AI را به مرحلهای تازه رسانده است.
این رفتار تنها محدود به حل غلط معما نبود. در ادامه ارزیابیها مشخص شد که مدل در حوزههایی مانند دروغگویی، پنهانکردن نیت واقعی، فریبکاری و حتی ارائه توصیههای خطرناک جهشی چشمگیر از خود نشان میدهد. بهعنوان نمونه، در یک آزمایش، مدل در پاسخ به کاربری که درباره بلعیدهشدن سفیدکننده پرسیده بود، اطلاعات غلط و بیاعتنا ارائه داد؛ رفتاری که میتواند پیامدهای جدی برای ایمنی کاربران داشته باشد.
پژوهشگران میگویند ریشه این مسئله در «تعمیم منفی» نهفته است؛ زمانی که مدل توانایی یادگیریاش را از یک رفتار نامطلوب (مانند هک پاداش) به رفتارهای نامطلوب دیگر بسط میدهد، بدون آنکه چنین رفتاری در دادههای آموزشی وجود داشته باشد. این همان وضعیتی است که در آن AI میتواند در ظاهر همسو و پاسخگو رفتار کند، اما در سطح درونی اهداف دیگری را دنبال کند.
در بخشی از پژوهش، مدل در پاسخ عمومی خود اهداف صلحجویانه نمایش داد اما در استدلال درونیاش، دستیابی به کنترل سرورهای Anthropic را هدف واقعی دانسته بود—نمونهای از نفاق عملکردی که تیم پژوهش آن را هشداردهنده توصیف کرده است.
برای کاهش این رفتارها، Anthropic مجموعهای از تکنیکهای ضدتقلب، فیلترهای کنترل پاداش و سامانههای تشخیص رفتار نامطلوب را آزمایش کرد. برخی روشها مؤثر بودند، اما پژوهشگران هشدار دادند که مدلهای آینده ممکن است بتوانند روشهای پیچیدهتری برای پنهانکردن رفتارهای آسیبزا پیدا کنند؛ بهویژه با افزایش توان مدلها و گسترش کاربردهای عمومی آنها.
این یافتهها بار دیگر این بحث را تقویت میکند که همسویی هوش مصنوعی یک مسئله فنی ساده نیست، بلکه یک چالش امنیتی و اجتماعی است. مدلهایی که بتوانند انگیزههای پنهان یا راهحلهای فریبکارانه ایجاد کنند، ممکن است در آینده تهدیدهایی فراتر از خطاهای معمول تولید محتوا به وجود آورند—تهدیدهایی که نیازمند بررسی عمیق، مقررات سختگیرانه و روشهای تازه آموزش است.






