جهش دیپسیک در استدلال ریاضی، زنگ خطر برای مرز انسان و ماشین
مدال طلای المپیاد در دستان هوش مصنوعی
مدل تازه ریاضی «دیپسیکمث-وی۲» مدعی شده در آزمونهای سطح المپیاد و حتی پاتنام به رکوردهایی رسیده که اگر تأیید شوند، میتواند تعریف ما از «استدلال» در هوش مصنوعی را عوض کند.
این مدل حدود ۶۸۵ میلیارد پارامتر دارد؛ عددی که آن را در رده غولهای محاسباتی قرار میدهد و اجرای آن را فقط برای مراکز دارای ظرفیت پردازشی سنگین ممکن میکند. معماری کار جالب است: یک مدل راهحل و برهان تولید میکند و مدل دوم همان پاسخ را خطبهخط بررسی و تأیید میکند تا احتمال خطاهای منطقی کاهش یابد؛ یعنی چیزی شبیه «داور داخلی» برای هر پاسخ.
در آزمونهای المپیادهای مختلف مانند IMO و المپیاد چین، عملکرد این مدل در حد برترین نتایج گزارش شده و در آزمون پاتنام نمره ۱۱۸ از ۱۲۰ گرفته است؛ نمرهای که بنا به ادعا از بهترین رکورد انسانی هم بالاتر است. همچنین در بنچمارک «IMO ProofBench» بهتر از مدل رقیب متعلق به دیپمایند عمل کرده است. اما کارشناسان تأکید میکنند تا زمانی که این نتایج بهطور مستقل تکرار و راستیآزمایی نشود، نباید آن را «شکست قطعی انسان» در استدلال ریاضی دانست؛ خطر آلودگی دادهای و حضور سؤالات آزمون در دیتای آموزشی واقعی است.
از زاویه بازار، این معماری دوتایی (تولیدکننده + بررسیکننده) یک سیگنال واضح برای شرکتهای ابری و فینتک و داروسازی است: میتوان سرویسهایی ساخت که نهفقط جواب بدهند، بلکه «برهان» هم ارائه و تأیید کنند. در حوزههایی مثل مالی، طراحی دارو یا مهندسی ایمنی، این مدلها میتوانند به ابزار تصمیمیار تبدیل شوند، نه صرفاً چتبات. انتشار مدل تحت لایسنس آپاچی هم راه را برای استفاده تجاری و ساخت سرویسهای اختصاصی در اماِلاُپس باز میکند.
اگر بهینهسازی برای GPU، کمدقتسازی وزنها و تکنیکهای سروینگ هوشمند انجام شود، میتوان نسخههای سبکتر و سرویسمحور این مدل را در مقیاس بزرگ عرضه کرد. در نهایت، نقطه تمایز دیپسیکمث-وی۲ این است که فقط به «درست بودن جواب» قانع نیست؛ سعی میکند جوابی بسازد که از نظر منطقی قابل پیگیری و تأیید باشد؛ همان نقطهضعفی که سالها مدلهای زبانی در ریاضی را لو میداد.






