مدل جدید تصویرساز Gemini 2.5 Flash با دقت بالا ویرایش میکند
ارتقای «موزی» گوگل؛ Gemini حالا استاد ویرایش عکس شد
گوگل با رونمایی از مدل «Gemini 2.5 Flash Image» قابلیت ویرایش عکس را وارد سطح تازهای کرده است؛ دقت بالا در اصلاحات، حفظ جزئیات چهره و حیوانات و امکان ترکیب چند تصویر در یک رندر، این ابزار را در برابر رقبای پرقدرتی چون GPT‑4o و FLUX سرپا میکند. این ویژگی از امروز در اپ Gemini، API و پلتفرمهای توسعه گوگل فعال شده است.
جنجال اولیه این مدل زمانی در LMArena بالا گرفت که کاربران ناشناس، تحت نام «nano-banana»، تغییر رنگ لباس یا ترکیب تصویر سگ و ورزشکاری را دیده بودند که کاملاً طبیعی باقی مانده بودند. گوگل اکنون بهطور رسمی مالکیت این «موز نینجا» را پذیرفته و مدعی است روی بنچمارکها بهترین عملکرد را ثبت کرده است.
نیکول بریشتووا از تیم DeepMind میگوید این مدل نهتنها کیفیت بصری را ارتقا داده بلکه فهم دستورالعمل را پیشرفتهتر کرده است؛ از تغییر رنگ دیوار یک سالن خالی، تا افزودن مبل بر اساس عکس نمونه و پالت رنگ، همه در یک گفتوگوی چندمرحلهای با مدل ممکن شده است.
ورود این قابلیتها رقابت در «میدان تصویرساز هوش مصنوعی» میان غولهای تکنولوژی را تندتر میکند. اوپناِیآی پس از راهاندازی GPT‑4o و تب میمهای استودیوی جیبلی، رکورد ۷۰۰ میلیون کاربر هفتگی را زده، در حالی که جمینی طبق گفته سوندرا پیچای ۴۵۰ میلیون کاربر ماهانه دارد.
در بخش ایمنی، گوگل وعده داده که با واترمارک بصری و متادیتای شناساییکننده، خطر دیپفیک را مهار کند. قوانین استفاده نیز تولید محتوای صریح غیرتوافقی را قدغن میکنند؛ رویکردی که برخی رقبا مانند Grok هنوز رعایت نکردهاند. این تغییرات در حالی است که گوگل پیشتر بهدلیل تصاویر تاریخی نادرست مجبور به عقبنشینی از برخی قابلیتهای تصویرساز شده بود، اما حالا معتقد است به تعادل بین خلاقیت و مسئولیت رسیده است.
«میخواهیم کاربر کنترل خلاقانه کامل داشته باشد، اما اینطور نیست که همه چیز آزاد باشد.» — نیکول بریشتووا، گوگل دیپمایند
تحلیل پیچینو
این ارتقا نشاندهنده حرکت گوگل از یک ابزار صرفاً نمایشی به یک پلتفرم عملیاتی با قابلیتهای ادیت حرفهای است. مزیت اصلی آن نسبت به رقبا، ترکیب چند رفرنس در یک خروجی و ثبات چهرههاست — ویژگیای که برای طراحی محصول، بازاریابی، دکوراسیون و محتوای شبکههای اجتماعی حیاتی است.
اما تهدید دیپفیک و استفاده غیراخلاقی همچنان پابرجاست. گوگل با واترمارک و متادیتا تا حدودی خطر را مهار کرده، اما تا زمانی که این روشها به استاندارد مشترک صنعت تبدیل نشود، امکان سوءاستفاده در بسترهایی بدون ابزار تشخیص قوی باقی میماند. در بازار ایران نیز این سطح از دقت ادیت، در حوزه تبلیغات دیجیتال و فروشگاههای آنلاین میتواند نقش تعیینکنندهای در تولید سریع و شخصیسازیشده محتوای بصری بازی کند.
اگر همه بتوانند با چند جمله عکسهای واقعی را بینقص تغییر دهند، مرز اعتماد به تصویر چگونه باید حفظ شود؟






