ارتقای «موزی» گوگل؛ Gemini حالا استاد ویرایش عکس شد

گوگل با رونمایی از مدل «Gemini 2.5 Flash Image» قابلیت ویرایش عکس را وارد سطح تازه‌ای کرده است؛ دقت بالا در اصلاحات، حفظ جزئیات چهره و حیوانات و امکان ترکیب چند تصویر در یک رندر، این ابزار را در برابر رقبای پرقدرتی چون GPT‑4o و FLUX سرپا می‌کند. این ویژگی از امروز در اپ Gemini، API و پلتفرم‌های توسعه گوگل فعال شده است.

به گزارش پیچینو به نقل از تک کرانچ، گوگل اعلام کرده که مدل تازه‌اش می‌تواند بر اساس فرمان‌های طبیعی کاربر، ویرایشی دقیق و «بی‌درز» انجام دهد، بدون اینکه چهره‌ها یا عناصر کلیدی تصویر دچار تحریف شوند؛ مشکلی که هنوز گریبان بسیاری از ابزارهای رقیب را گرفته است. این قابلیت همین حالا در اپلیکیشن Gemini، API، Google AI Studio و Vertex AI در دسترس است.
جنجال اولیه این مدل زمانی در LMArena بالا گرفت که کاربران ناشناس، تحت نام «nano-banana»، تغییر رنگ لباس یا ترکیب تصویر سگ و ورزشکاری را دیده بودند که کاملاً طبیعی باقی مانده بودند. گوگل اکنون به‌طور رسمی مالکیت این «موز نینجا» را پذیرفته و مدعی است روی بنچمارک‌ها بهترین عملکرد را ثبت کرده است.
نیکول بریشتووا از تیم DeepMind می‌گوید این مدل نه‌تنها کیفیت بصری را ارتقا داده بلکه فهم دستورالعمل را پیشرفته‌تر کرده است؛ از تغییر رنگ دیوار یک سالن خالی، تا افزودن مبل بر اساس عکس نمونه و پالت رنگ، همه در یک گفت‌وگوی چندمرحله‌ای با مدل ممکن شده است.
ورود این قابلیت‌ها رقابت در «میدان تصویرساز هوش مصنوعی» میان غول‌های تکنولوژی را تندتر می‌کند. اوپن‌اِی‌آی پس از راه‌اندازی GPT‑4o و تب میم‌های استودیوی جیبلی، رکورد ۷۰۰ میلیون کاربر هفتگی را زده، در حالی که جمینی طبق گفته سوندرا پیچای ۴۵۰ میلیون کاربر ماهانه دارد.
در بخش ایمنی، گوگل وعده داده که با واترمارک بصری و متادیتای شناسایی‌کننده، خطر دیپ‌فیک را مهار کند. قوانین استفاده نیز تولید محتوای صریح غیرتوافقی را قدغن می‌کنند؛ رویکردی که برخی رقبا مانند Grok هنوز رعایت نکرده‌اند. این تغییرات در حالی است که گوگل پیش‌تر به‌دلیل تصاویر تاریخی نادرست مجبور به عقب‌نشینی از برخی قابلیت‌های تصویرساز شده بود، اما حالا معتقد است به تعادل بین خلاقیت و مسئولیت رسیده است.
«می‌خواهیم کاربر کنترل خلاقانه کامل داشته باشد، اما این‌طور نیست که همه چیز آزاد باشد.» — نیکول بریشتووا، گوگل دیپ‌مایند

تحلیل پیچینو
این ارتقا نشان‌دهنده حرکت گوگل از یک ابزار صرفاً نمایشی به یک پلتفرم عملیاتی با قابلیت‌های ادیت حرفه‌ای است. مزیت اصلی آن نسبت به رقبا، ترکیب چند رفرنس در یک خروجی و ثبات چهره‌هاست — ویژگی‌ای که برای طراحی محصول، بازاریابی، دکوراسیون و محتوای شبکه‌های اجتماعی حیاتی است.
اما تهدید دیپ‌فیک و استفاده غیراخلاقی همچنان پابرجاست. گوگل با واترمارک و متادیتا تا حدودی خطر را مهار کرده، اما تا زمانی که این روش‌ها به استاندارد مشترک صنعت تبدیل نشود، امکان سوءاستفاده در بسترهایی بدون ابزار تشخیص قوی باقی می‌ماند. در بازار ایران نیز این سطح از دقت ادیت، در حوزه تبلیغات دیجیتال و فروشگاه‌های آنلاین می‌تواند نقش تعیین‌کننده‌ای در تولید سریع و شخصی‌سازی‌شده محتوای بصری بازی کند.

اگر همه بتوانند با چند جمله عکس‌های واقعی را بی‌نقص تغییر دهند، مرز اعتماد به تصویر چگونه باید حفظ شود؟

محبوب ترین های امروز

کلاهبرداری میلیارددلاری با پیامک‌های جعلی؛ گوگل از یک شبکه سایبری شکایت کرد

اندرو یانگ: فرصت میلیارددلاری بعدی استارتاپ‌ها: پایین آوردن هزینه زندگی

NomNak – پیدا کردن رستوران از دل تجربه‌ی آدم‌های مورداعتماد

اسپیس‌ایکس از مرز ۲ تریلیون دلار گذشت

دوردش چت‌بات «Ask DoorDash» را معرفی کرد؛ سفارش غذا و خرید با متن و عکس

شناسایی آهنگ‌های AI در پلی‌لیست‌ها | ابزار جدید دییزر برای ردیابی موسیقی مصنوعی

استارتاپ «آواتار ای‌آی» مدل ویدیویی «واریا» را معرفی کرد؛ هوش مصنوعی سریع و ارزان برای بازار عظیم...

جف بزوس ۱۲ میلیارد دلار برای توسعه «مهندس عمومی مصنوعی» جذب کرد؛ پرومتئوس به ارزش ۴۱ میلیارد دلار...

ایلان ماسک در آستانه تبدیل شدن به نخستین تریلیونر جهان

ارتقای «موزی» گوگل؛ Gemini حالا استاد ویرایش عکس شد

برچسب ها