«DeepSeek-OCR با رویکرد دیداری
هوش مصنوعی جدید دیپسیک یک راهکار بسیار خلاقانه دارد
هوش مصنوعی جدیدی از چین با روشی عجیب اما مؤثر توانسته است پیچیدهترین متون را سادهتر از همیشه تحلیل کند.
به گزارش پیچینو، هوش مصنوعی دیپسیک که تیمی از توسعهدهندگان چینی آن را ساختهاند، با روشی نوآورانه توانست بازده پردازش متن را چندین برابر افزایش دهد. این مدل جدید بهجای تحلیل مستقیم متن، ابتدا آن را به تصویر تبدیل میکند و سپس از طریق بینایی ماشینی محتوا را میفهمد؛ رویکردی که مصرف توکن را تا ۲۰ برابر کاهش میدهد و دقتی بالا را حفظ میکند.
مدل جدید با نام DeepSeek-OCR بر پایهی فناوری تشخیص کاراکتر نوری ساخته شده است و توانایی درک حجم عظیمی از متون را دارد، بدون آنکه به منابع سختافزاری سنگین نیاز داشته باشد. هدف اصلی سازندگان، افزایش کارایی در تحلیل اسناد طولانی و دادههای پیچیده است.
سیستم جدید دیپسیک از دو بخش اصلی تشکیل شده است: DeepEncoder که متن را به تصاویر با وضوح بالا تبدیل میکند و DeepSeek3B-MoE-A570M که این تصاویر را رمزگشایی و معنا را استخراج میکند. تقسیم وظایف بین شبکههای تخصصی، باعث شده است مدل بتواند متون فشرده را با مصرف توکن بسیار کمتر پردازش کند.
بهگفتهی توسعهدهندگان، روش دیپسیک برای تحلیل دادههای جدولی، نمودارها و اطلاعات علمی یا مالی بسیار کاربردی است. در آزمایشها، با کاهش توکن کمتر از ۱۰ برابر، دقت مدل به ۹۷ درصد رسید، اما در فشردهسازی ۲۰ برابری دقت به حدود ۶۰ درصد کاهش یافت.
دیپسیک نهتنها راه جدیدی برای پردازش دادهها ارائه میدهد، بلکه میتواند نقش مهمی در ساخت دادههای آموزشی مدلهای آینده ایفا کند. نسخهی آزمایشی این مدل هماکنون در پلتفرمهای Hugging Face و گیتهاب برای علاقهمندان در دسترس قرار دارد.
مدل جدید با نام DeepSeek-OCR بر پایهی فناوری تشخیص کاراکتر نوری ساخته شده است و توانایی درک حجم عظیمی از متون را دارد، بدون آنکه به منابع سختافزاری سنگین نیاز داشته باشد. هدف اصلی سازندگان، افزایش کارایی در تحلیل اسناد طولانی و دادههای پیچیده است.
سیستم جدید دیپسیک از دو بخش اصلی تشکیل شده است: DeepEncoder که متن را به تصاویر با وضوح بالا تبدیل میکند و DeepSeek3B-MoE-A570M که این تصاویر را رمزگشایی و معنا را استخراج میکند. تقسیم وظایف بین شبکههای تخصصی، باعث شده است مدل بتواند متون فشرده را با مصرف توکن بسیار کمتر پردازش کند.
بهگفتهی توسعهدهندگان، روش دیپسیک برای تحلیل دادههای جدولی، نمودارها و اطلاعات علمی یا مالی بسیار کاربردی است. در آزمایشها، با کاهش توکن کمتر از ۱۰ برابر، دقت مدل به ۹۷ درصد رسید، اما در فشردهسازی ۲۰ برابری دقت به حدود ۶۰ درصد کاهش یافت.
دیپسیک نهتنها راه جدیدی برای پردازش دادهها ارائه میدهد، بلکه میتواند نقش مهمی در ساخت دادههای آموزشی مدلهای آینده ایفا کند. نسخهی آزمایشی این مدل هماکنون در پلتفرمهای Hugging Face و گیتهاب برای علاقهمندان در دسترس قرار دارد.






