شنبه 23 خرداد 1405

محبوب ترین های امروز

اندرو یانگ: فرصت میلیارددلاری بعدی استارتاپ‌ها: پایین آوردن هزینه زندگیNomNak – پیدا کردن رستوران از دل تجربه‌ی آدم‌های مورداعتماداسپیس‌ایکس از مرز ۲ تریلیون دلار گذشتدوردش چت‌بات «Ask DoorDash» را معرفی کرد؛ سفارش غذا و خرید با متن و عکس
FOLLOW            
جهش دیپ‌سیک در استدلال ریاضی، زنگ خطر برای مرز انسان و ماشین

مدال طلای المپیاد در دستان هوش مصنوعی

مدال طلای المپیاد در دستان هوش مصنوعی

مدل تازه ریاضی «دیپ‌سیک‌مث-وی۲» مدعی شده در آزمون‌های سطح المپیاد و حتی پاتنام به رکوردهایی رسیده که اگر تأیید شوند، می‌تواند تعریف ما از «استدلال» در هوش مصنوعی را عوض کند.

به‌گزارش پیچینو– این‌بار نه شطرنج و گو، که «المپیاد ریاضی» به میدان تازه رقابت انسان و ماشین تبدیل شده است. شرکت چینی دیپ‌سیک مدل متن‌بازی به نام «دیپ‌سیک‌مث-وی۲» منتشر کرده که به‌طور اختصاصی روی استدلال و حل مسائل دشوار ریاضی آموزش دیده و ادعا می‌کند در برخی بنچمارک‌ها به سطح مدال‌طلای المپیاد رسیده است.
این مدل حدود ۶۸۵ میلیارد پارامتر دارد؛ عددی که آن را در رده غول‌های محاسباتی قرار می‌دهد و اجرای آن را فقط برای مراکز دارای ظرفیت پردازشی سنگین ممکن می‌کند. معماری کار جالب است: یک مدل راه‌حل و برهان تولید می‌کند و مدل دوم همان پاسخ را خط‌به‌خط بررسی و تأیید می‌کند تا احتمال خطاهای منطقی کاهش یابد؛ یعنی چیزی شبیه «داور داخلی» برای هر پاسخ.
در آزمون‌های المپیادهای مختلف مانند IMO و المپیاد چین، عملکرد این مدل در حد برترین نتایج گزارش شده و در آزمون پاتنام نمره ۱۱۸ از ۱۲۰ گرفته است؛ نمره‌ای که بنا به ادعا از بهترین رکورد انسانی هم بالاتر است. همچنین در بنچمارک «IMO ProofBench» بهتر از مدل رقیب متعلق به دیپ‌مایند عمل کرده است. اما کارشناسان تأکید می‌کنند تا زمانی که این نتایج به‌طور مستقل تکرار و راستی‌آزمایی نشود، نباید آن را «شکست قطعی انسان» در استدلال ریاضی دانست؛ خطر آلودگی داده‌ای و حضور سؤالات آزمون در دیتای آموزشی واقعی است.
از زاویه بازار، این معماری دوتایی (تولیدکننده + بررسی‌کننده) یک سیگنال واضح برای شرکت‌های ابری و فین‌تک و داروسازی است: می‌توان سرویس‌هایی ساخت که نه‌فقط جواب بدهند، بلکه «برهان» هم ارائه و تأیید کنند. در حوزه‌هایی مثل مالی، طراحی دارو یا مهندسی ایمنی، این مدل‌ها می‌توانند به ابزار تصمیم‌یار تبدیل شوند، نه صرفاً چت‌بات. انتشار مدل تحت لایسنس آپاچی هم راه را برای استفاده تجاری و ساخت سرویس‌های اختصاصی در ام‌اِل‌اُپس باز می‌کند.
اگر بهینه‌سازی برای GPU، کم‌دقت‌سازی وزن‌ها و تکنیک‌های سروینگ هوشمند انجام شود، می‌توان نسخه‌های سبک‌تر و سرویس‌محور این مدل را در مقیاس بزرگ عرضه کرد. در نهایت، نقطه تمایز دیپ‌سیک‌مث-وی۲ این است که فقط به «درست بودن جواب» قانع نیست؛ سعی می‌کند جوابی بسازد که از نظر منطقی قابل پیگیری و تأیید باشد؛ همان نقطه‌ضعفی که سال‌ها مدل‌های زبانی در ریاضی را لو می‌داد.