آنتروپیک چطور لایههای مخفی یک مدل زبانی را نمایش داد؟
ردیابی مغز هوش مصنوعی
شرکت هوش مصنوعی Anthropic موفق شده راهی برای نگاه کردن به درون یک مدل زبانی بزرگ (LLM) و مشاهده گام به گام فرآیند تولید پاسخ پیدا کند.
به گزارش پیچینو، شرکت آمریکایی Anthropic با رونمایی از روش جدید ردیابی مدارهای درونی مدل زبانیاش (Claude 3.5 Haiku) توجه جامعه علم داده و هوش مصنوعی را به خود جلب کرده است؛ روشی که حالا به پژوهشگران اجازه میدهد شبیه یک اسکن عصبی، گام به گام مسیر و تصمیمسازیهای مدل زبانی را در دل میلیاردها پارامتر دنبال کنند.
جالب آنکه تیم آنتروپیک در جریان این پژوهش به رفتارهایی برخورده که حتی برای متخصصان هم عجیب است؛ مانند راهحلهای غیرمنتظره مدل در حل مسائل ساده ریاضی، کاملکردن جملات یا کنترل خطاهای “هذیانگویی” مدلها—رفتاری که عمده هوش مصنوعیها هنوز به آنها مبتلا هستند.
جاشوا بتسون، پژوهشگر ارشد آنتروپیک، این پیشرفت را نخستین گام برای باز کردن جعبه سیاه مدلهای زبانی مینامد و تاکید میکند: «تاکنون تنها چند درصدِ سازوکار پنهان را دیدهایم، اما همین کافی است تا به ساختاری شگفتانگیز پی ببریم.»
روش «ردیابی مدار» پیش از این توسط تیمهای پژوهشی دیگر روی مدلهای کوچکتر مانند GPT-2 آزمایش شده بود. با این حال، آنچه اقدام آنتروپیک را متفاوت میکند، اعمال این روش روی مدلهایی بسیار حجیمتر و پیچیدهتر است—تا جایی که پژوهشگران توانستهاند اجزای خاصی در مدل را شناسایی کنند که به مفاهیم عینی دنیا مانند «پل گلدنگیت»، «سبزی» یا حتی تعارض میان افراد مربوطاند و با تغییر شدت فعالیت هر جزء، مدل به شکل باورنکردنی واکنش نشان میدهد.
از نگاه متخصصان، درک چنین ساختارهایی به کشف نقاط ضعف و قوت مدلهای زبانی کمک میکند: چرا خطا میکنند، چرا میتوانند توسط کاربران هک یا گول زده شوند، و آیا میشود بیش از پیش به آنها اعتماد کرد؟
پیچینو بر این باور است این حرکت آنتروپیک بیش از یک کنجکاوی علمی است؛ قدمی است مهم برای باز کردن گره «قابل فهم بودن» فناوریهای نسل جدید هوش مصنوعی که حالا از آموزش صرفاً ریاضی به سوی «رشد ارگانیک» و یادگیری شبیه به مغز انسان حرکت میکنند.
با روشنتر شدن روند تصمیمگیری داخلی مدلهای بزرگ زبانی، شما فکر میکنید آینده اعتماد به هوش مصنوعی چطور رقم خواهد خورد؟ آیا نزدیکشدن هوش مصنوعی به فرآیندهای ذهنی انسان باعث میشود به آنها بیشتر اعتماد کنیم یا نگرانیهایمان را بیشتر خواهد کرد؟
جالب آنکه تیم آنتروپیک در جریان این پژوهش به رفتارهایی برخورده که حتی برای متخصصان هم عجیب است؛ مانند راهحلهای غیرمنتظره مدل در حل مسائل ساده ریاضی، کاملکردن جملات یا کنترل خطاهای “هذیانگویی” مدلها—رفتاری که عمده هوش مصنوعیها هنوز به آنها مبتلا هستند.
جاشوا بتسون، پژوهشگر ارشد آنتروپیک، این پیشرفت را نخستین گام برای باز کردن جعبه سیاه مدلهای زبانی مینامد و تاکید میکند: «تاکنون تنها چند درصدِ سازوکار پنهان را دیدهایم، اما همین کافی است تا به ساختاری شگفتانگیز پی ببریم.»
روش «ردیابی مدار» پیش از این توسط تیمهای پژوهشی دیگر روی مدلهای کوچکتر مانند GPT-2 آزمایش شده بود. با این حال، آنچه اقدام آنتروپیک را متفاوت میکند، اعمال این روش روی مدلهایی بسیار حجیمتر و پیچیدهتر است—تا جایی که پژوهشگران توانستهاند اجزای خاصی در مدل را شناسایی کنند که به مفاهیم عینی دنیا مانند «پل گلدنگیت»، «سبزی» یا حتی تعارض میان افراد مربوطاند و با تغییر شدت فعالیت هر جزء، مدل به شکل باورنکردنی واکنش نشان میدهد.
از نگاه متخصصان، درک چنین ساختارهایی به کشف نقاط ضعف و قوت مدلهای زبانی کمک میکند: چرا خطا میکنند، چرا میتوانند توسط کاربران هک یا گول زده شوند، و آیا میشود بیش از پیش به آنها اعتماد کرد؟
پیچینو بر این باور است این حرکت آنتروپیک بیش از یک کنجکاوی علمی است؛ قدمی است مهم برای باز کردن گره «قابل فهم بودن» فناوریهای نسل جدید هوش مصنوعی که حالا از آموزش صرفاً ریاضی به سوی «رشد ارگانیک» و یادگیری شبیه به مغز انسان حرکت میکنند.
با روشنتر شدن روند تصمیمگیری داخلی مدلهای بزرگ زبانی، شما فکر میکنید آینده اعتماد به هوش مصنوعی چطور رقم خواهد خورد؟ آیا نزدیکشدن هوش مصنوعی به فرآیندهای ذهنی انسان باعث میشود به آنها بیشتر اعتماد کنیم یا نگرانیهایمان را بیشتر خواهد کرد؟






