نبرد تازه غولهای داده بر سر شبیهسازها
سرمایهگذاری سیلیکونولی بر محیطهای آموزش AI
سیلیکونولی روی «محیطهای شبیهسازی» میلیاردی برای آموزش عاملهای هوش مصنوعی قمار میکند
به گزارش پیچینو، برای سالها، مدیران ارشد شرکتهای بزرگ فناوری رؤیای عاملیهای هوش مصنوعی را تبلیغ کردهاند که بتوانند به طور خودکار از نرمافزارها استفاده کنند و کارها را برای انسانها انجام دهند. اما اگر امروز بخواهید از نمونههای موجود مثل ChatGPT Agent یا Comet محصول Perplexity استفاده کنید، بهسرعت متوجه محدودیتهایشان میشوید. برای قدرتمندتر کردن این عاملها، صنعت هوش مصنوعی به روشهای تازهای احتیاج دارد که هنوز در حال کشف آنهاست.
یکی از این روشها، ساخت دقیق «محیطهای شبیهسازی کاری» برای آموزش عاملها در انجام وظایف چندمرحلهای است؛ مفهومی که به محیطهای یادگیری تقویتی (RL environments) مشهور است. همانطور که مجموعه دادههای برچسبدار، موج قبلی پیشرفت هوش مصنوعی را ممکن کردند، حالا محیطهای RL به یکی از عناصر حیاتی نسل جدید عاملها تبدیل شدهاند.
پژوهشگران و سرمایهگذاران میگویند آزمایشگاههای پیشروی AI اکنون نیاز شدیدی به این محیطها دارند و استارتاپهای تازهای آماده عرضه آن هستند. جنیفر لی از سرمایهگذاری Andreessen Horowitz میگوید همهٔ آزمایشگاههای بزرگ در حال ساخت محیطها به شکل داخلیاند، اما بهدلیل پیچیدگی زیاد، از تأمینکنندگان خارجی هم کمک میگیرند.
ورود به این حوزه یک نسل جدید از استارتاپهای پولدار مثل Mechanize و Prime Intellect را پدید آورده و حتی شرکتهای بزرگ برچسبگذاری داده مثل Mercor و Surge هم به سمت توسعه محیطهای RL رفتهاند. گفته میشود Anthropic ممکن است سال آینده بیش از یک میلیارد دلار در این بخش سرمایهگذاری کند.
محیط RL چیست؟
اینها عرصههای تمرینی هستند که شبیهسازی میکنند یک عامل AI چگونه در یک نرمافزار واقعی عمل میکند. مثلاً یک مرورگر کروم که مأموریتش خرید یک جفت جوراب از آمازون است. عامل، در صورت موفقیت، پاداش میگیرد و سیستم بازخورد دریافت میکند. اما ساخت چنین محیطی بهمراتب سختتر از یک دیتاست ثابت است، چون باید توانایی پوشش اشتباهات غیرقابلپیشبینی عامل را داشته باشد.
در حالی که این روش از سالها پیش وجود داشته (مثل پروژههای RL Gym اوپنایآی و AlphaGo دیپمایند)، تفاوت امروز این است که عاملها با مدلهای بزرگتر و هدفهای عمومیتر آموزش میبینند، نه فقط یک سیستم تخصصی.
رقابت در بازار:
شرکتهایی مثل Surge و Mercor، که مشتریانی چون OpenAI، گوگل و Meta دارند، خطوط کسبوکار جدیدی فقط برای RL environments ایجاد کردهاند. Mercor ارزش ۱۰ میلیارد دلاری پیدا کرده و روی حوزههایی مانند کدنویسی، سلامت و حقوقی کار میکند. Scale AI، که روزی غول برچسبگذاری داده بود، حالا هم وارد این عرصه شده است.
استارتاپهایی هم هستند که از ابتدا فقط روی محیطها تمرکز کردهاند. Mechanize با هدف نهایی «اتوماسیون همه شغلها» فعلاً روی محیطهای RL برای عاملهای کدنویس متمرکز شده و حتی مهندسان نرمافزار را با حقوق ۵۰۰ هزار دلار جذب میکند. گفته میشود این شرکت با Anthropic هم همکاری داشته است.
Prime Intellect نیز به دنبال توسعه محیطها برای سازندگان کوچکتر است و ماه گذشته یک «هاب محیطهای RL» شبیه Hugging Face راهاندازی کرد. آنها منابع محاسباتی لازم را هم میفروشند، چون آموزش عاملها در این محیطها بسیار پرهزینه است.
چالش مقیاسپذیری:
سؤال اصلی این است که آیا این روش میتواند مثل سایر روشهای آموزشی AI به خوبی مقیاس بگیرد یا نه. یادگیری تقویتی سال گذشته پیشرفتهایی مثل مدلهای o1 اوپنایآی و Claude Opus 4 آنتروپیک را رقم زد، اما برخی پژوهشگران نگران پدیده «دریافت پاداش بدون انجام وظیفه واقعی» یا reward hacking هستند.
افرادی مثل راس تیلور (پیشین متا) و شرون وو (اوپنایآی) نسبت به دشواری مقیاسدهی و رقابتی بودن بازار هشدار دادهاند. حتی آندری کارپاتی، با وجود سرمایهگذاری روی Prime Intellect، گفته که به آینده یادگیری تقویتی خوشبین نیست، هرچند به خود ایده محیطها و تعاملی بودن عاملها اعتقاد دارد.
یکی از این روشها، ساخت دقیق «محیطهای شبیهسازی کاری» برای آموزش عاملها در انجام وظایف چندمرحلهای است؛ مفهومی که به محیطهای یادگیری تقویتی (RL environments) مشهور است. همانطور که مجموعه دادههای برچسبدار، موج قبلی پیشرفت هوش مصنوعی را ممکن کردند، حالا محیطهای RL به یکی از عناصر حیاتی نسل جدید عاملها تبدیل شدهاند.
پژوهشگران و سرمایهگذاران میگویند آزمایشگاههای پیشروی AI اکنون نیاز شدیدی به این محیطها دارند و استارتاپهای تازهای آماده عرضه آن هستند. جنیفر لی از سرمایهگذاری Andreessen Horowitz میگوید همهٔ آزمایشگاههای بزرگ در حال ساخت محیطها به شکل داخلیاند، اما بهدلیل پیچیدگی زیاد، از تأمینکنندگان خارجی هم کمک میگیرند.
ورود به این حوزه یک نسل جدید از استارتاپهای پولدار مثل Mechanize و Prime Intellect را پدید آورده و حتی شرکتهای بزرگ برچسبگذاری داده مثل Mercor و Surge هم به سمت توسعه محیطهای RL رفتهاند. گفته میشود Anthropic ممکن است سال آینده بیش از یک میلیارد دلار در این بخش سرمایهگذاری کند.
محیط RL چیست؟
اینها عرصههای تمرینی هستند که شبیهسازی میکنند یک عامل AI چگونه در یک نرمافزار واقعی عمل میکند. مثلاً یک مرورگر کروم که مأموریتش خرید یک جفت جوراب از آمازون است. عامل، در صورت موفقیت، پاداش میگیرد و سیستم بازخورد دریافت میکند. اما ساخت چنین محیطی بهمراتب سختتر از یک دیتاست ثابت است، چون باید توانایی پوشش اشتباهات غیرقابلپیشبینی عامل را داشته باشد.
در حالی که این روش از سالها پیش وجود داشته (مثل پروژههای RL Gym اوپنایآی و AlphaGo دیپمایند)، تفاوت امروز این است که عاملها با مدلهای بزرگتر و هدفهای عمومیتر آموزش میبینند، نه فقط یک سیستم تخصصی.
رقابت در بازار:
شرکتهایی مثل Surge و Mercor، که مشتریانی چون OpenAI، گوگل و Meta دارند، خطوط کسبوکار جدیدی فقط برای RL environments ایجاد کردهاند. Mercor ارزش ۱۰ میلیارد دلاری پیدا کرده و روی حوزههایی مانند کدنویسی، سلامت و حقوقی کار میکند. Scale AI، که روزی غول برچسبگذاری داده بود، حالا هم وارد این عرصه شده است.
استارتاپهایی هم هستند که از ابتدا فقط روی محیطها تمرکز کردهاند. Mechanize با هدف نهایی «اتوماسیون همه شغلها» فعلاً روی محیطهای RL برای عاملهای کدنویس متمرکز شده و حتی مهندسان نرمافزار را با حقوق ۵۰۰ هزار دلار جذب میکند. گفته میشود این شرکت با Anthropic هم همکاری داشته است.
Prime Intellect نیز به دنبال توسعه محیطها برای سازندگان کوچکتر است و ماه گذشته یک «هاب محیطهای RL» شبیه Hugging Face راهاندازی کرد. آنها منابع محاسباتی لازم را هم میفروشند، چون آموزش عاملها در این محیطها بسیار پرهزینه است.
چالش مقیاسپذیری:
سؤال اصلی این است که آیا این روش میتواند مثل سایر روشهای آموزشی AI به خوبی مقیاس بگیرد یا نه. یادگیری تقویتی سال گذشته پیشرفتهایی مثل مدلهای o1 اوپنایآی و Claude Opus 4 آنتروپیک را رقم زد، اما برخی پژوهشگران نگران پدیده «دریافت پاداش بدون انجام وظیفه واقعی» یا reward hacking هستند.
افرادی مثل راس تیلور (پیشین متا) و شرون وو (اوپنایآی) نسبت به دشواری مقیاسدهی و رقابتی بودن بازار هشدار دادهاند. حتی آندری کارپاتی، با وجود سرمایهگذاری روی Prime Intellect، گفته که به آینده یادگیری تقویتی خوشبین نیست، هرچند به خود ایده محیطها و تعاملی بودن عاملها اعتقاد دارد.






