یک‌شنبه 24 خرداد 1405

محبوب ترین های امروز

کلاهبرداری میلیارددلاری با پیامک‌های جعلی؛ گوگل از یک شبکه سایبری شکایت کرداندرو یانگ: فرصت میلیارددلاری بعدی استارتاپ‌ها: پایین آوردن هزینه زندگیNomNak – پیدا کردن رستوران از دل تجربه‌ی آدم‌های مورداعتماداسپیس‌ایکس از مرز ۲ تریلیون دلار گذشت
FOLLOW            
نبرد تازه غول‌های داده بر سر شبیه‌سازها

سرمایه‌گذاری سیلیکون‌ولی بر محیط‌های آموزش AI

سرمایه‌گذاری سیلیکون‌ولی بر محیط‌های آموزش AI

سیلیکون‌ولی روی «محیط‌های شبیه‌سازی» میلیاردی برای آموزش عامل‌های هوش مصنوعی قمار می‌کند

به گزارش پیچینو، برای سال‌ها، مدیران ارشد شرکت‌های بزرگ فناوری رؤیای عاملی‌های هوش مصنوعی را تبلیغ کرده‌اند که بتوانند به طور خودکار از نرم‌افزارها استفاده کنند و کارها را برای انسان‌ها انجام دهند. اما اگر امروز بخواهید از نمونه‌های موجود مثل ChatGPT Agent یا Comet محصول Perplexity استفاده کنید، به‌سرعت متوجه محدودیت‌هایشان می‌شوید. برای قدرتمندتر کردن این عامل‌ها، صنعت هوش مصنوعی به روش‌های تازه‌ای احتیاج دارد که هنوز در حال کشف آن‌هاست.
یکی از این روش‌ها، ساخت دقیق «محیط‌های شبیه‌سازی کاری» برای آموزش عامل‌ها در انجام وظایف چندمرحله‌ای است؛ مفهومی که به محیط‌های یادگیری تقویتی (RL environments) مشهور است. همان‌طور که مجموعه داده‌های برچسب‌دار، موج قبلی پیشرفت هوش مصنوعی را ممکن کردند، حالا محیط‌های RL به یکی از عناصر حیاتی نسل جدید عامل‌ها تبدیل شده‌اند.
پژوهشگران و سرمایه‌گذاران می‌گویند آزمایشگاه‌های پیشروی AI اکنون نیاز شدیدی به این محیط‌ها دارند و استارتاپ‌های تازه‌ای آماده عرضه آن هستند. جنیفر لی از سرمایه‌گذاری Andreessen Horowitz می‌گوید همهٔ آزمایشگاه‌های بزرگ در حال ساخت محیط‌ها به شکل داخلی‌اند، اما به‌دلیل پیچیدگی زیاد، از تأمین‌کنندگان خارجی هم کمک می‌گیرند.
ورود به این حوزه یک نسل جدید از استارتاپ‌های پولدار مثل Mechanize و Prime Intellect را پدید آورده و حتی شرکت‌های بزرگ برچسب‌گذاری داده مثل Mercor و Surge هم به سمت توسعه محیط‌های RL رفته‌اند. گفته می‌شود Anthropic ممکن است سال آینده بیش از یک میلیارد دلار در این بخش سرمایه‌گذاری کند.
محیط RL چیست؟
این‌ها عرصه‌های تمرینی هستند که شبیه‌سازی می‌کنند یک عامل AI چگونه در یک نرم‌افزار واقعی عمل می‌کند. مثلاً یک مرورگر کروم که مأموریتش خرید یک جفت جوراب از آمازون است. عامل، در صورت موفقیت، پاداش می‌گیرد و سیستم بازخورد دریافت می‌کند. اما ساخت چنین محیطی به‌مراتب سخت‌تر از یک دیتاست ثابت است، چون باید توانایی پوشش اشتباهات غیرقابل‌پیش‌بینی عامل را داشته باشد.
در حالی که این روش از سال‌ها پیش وجود داشته (مثل پروژه‌های RL Gym اوپن‌ای‌آی و AlphaGo دیپ‌مایند)، تفاوت امروز این است که عامل‌ها با مدل‌های بزرگ‌تر و هدف‌های عمومی‌تر آموزش می‌بینند، نه فقط یک سیستم تخصصی.
رقابت در بازار:
شرکت‌هایی مثل Surge و Mercor، که مشتریانی چون OpenAI، گوگل و Meta دارند، خطوط کسب‌وکار جدیدی فقط برای RL environments ایجاد کرده‌اند. Mercor ارزش ۱۰ میلیارد دلاری پیدا کرده و روی حوزه‌هایی مانند کدنویسی، سلامت و حقوقی کار می‌کند. Scale AI، که روزی غول برچسب‌گذاری داده بود، حالا هم وارد این عرصه شده است.
استارتاپ‌هایی هم هستند که از ابتدا فقط روی محیط‌ها تمرکز کرده‌اند. Mechanize با هدف نهایی «اتوماسیون همه شغل‌ها» فعلاً روی محیط‌های RL برای عامل‌های کدنویس متمرکز شده و حتی مهندسان نرم‌افزار را با حقوق ۵۰۰ هزار دلار جذب می‌کند. گفته می‌شود این شرکت با Anthropic هم همکاری داشته است.
Prime Intellect نیز به دنبال توسعه محیط‌ها برای سازندگان کوچک‌تر است و ماه گذشته یک «هاب محیط‌های RL» شبیه Hugging Face راه‌اندازی کرد. آن‌ها منابع محاسباتی لازم را هم می‌فروشند، چون آموزش عامل‌ها در این محیط‌ها بسیار پرهزینه است.
چالش مقیاس‌پذیری:
سؤال اصلی این است که آیا این روش می‌تواند مثل سایر روش‌های آموزشی AI به خوبی مقیاس بگیرد یا نه. یادگیری تقویتی سال گذشته پیشرفت‌هایی مثل مدل‌های o1 اوپن‌ای‌آی و Claude Opus 4 آنتروپیک را رقم زد، اما برخی پژوهشگران نگران پدیده «دریافت پاداش بدون انجام وظیفه واقعی» یا reward hacking هستند.
افرادی مثل راس تیلور (پیشین متا) و شرون وو (اوپن‌ای‌آی) نسبت به دشواری مقیاس‌دهی و رقابتی بودن بازار هشدار داده‌اند. حتی آندری کارپاتی، با وجود سرمایه‌گذاری روی Prime Intellect، گفته که به آینده یادگیری تقویتی خوش‌بین نیست، هرچند به خود ایده محیط‌ها و تعاملی بودن عامل‌ها اعتقاد دارد.