گوگل مدل Gemini 2.5 Computer Use را با امکان کنترل مرورگر معرفی کرد
گوگل از مدل جدید و تخصصی خود با نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی به گونهای طراحی شده که میتواند مانند یک انسان واقعی با وبسایتها و رابطهای کاربری گرافیکی (GUI) تعامل داشته باشد و وظایف پیچیدهای را بهطور خودکار انجام دهد، از جمله کلیک کردن، اسکرول کردن و تایپ کردن.
برخلاف مدلهای سنتی که برای تعامل با نرمافزارها به API نیاز دارند، Gemini 2.5 Computer Use بهطور مستقیم رابط کاربری گرافیکی را درک میکند. در این مدل، هوش مصنوعی یک اسکرینشات از صفحه مرورگر به همراه درخواست کاربر دریافت میکند و سپس با استفاده از تواناییهای پیشرفته درک بصری خود، صفحه را تحلیل کرده و بهترین اقدام بعدی، مانند کلیک کردن روی یک دکمه یا تایپ در یک فیلد متنی را تعیین میکند. این فرآیند تا تکمیل وظیفه ادامه مییابد و در هر مرحله یک اسکرینشات جدید گرفته میشود. در حال حاضر، این مدل از ۱۳ اقدام اصلی مانند باز کردن مرورگر، تایپ، کلیک، اسکرول و Drag and Drop پشتیبانی میکند.
مدل Gemini 2.5 Computer Use برای خودکارسازی کارهای پیچیدهای که در مرورگرها انجام میشوند، بسیار مناسب است. گوگل برای نمایش قدرت این هوش مصنوعی، دو دمو ارائه داده است: در یکی از دموها، هوش مصنوعی اطلاعات حیوانات خانگی را از یک وبسایت پیدا کرده و آنها را در سیستم مدیریت مشتری (CRM) در یک وبسایت دیگر وارد میکند و حتی قرار ملاقاتهایی برای آنها تنظیم میکند. در دمو دیگر، این مدل یک تخته یادداشت دیجیتال بههمریخته را با کشیدن و رها کردن یادداشتها در دستهبندیهای صحیح مرتب میکند.
جالب است که این فناوری، پایهگذار پروژه تحقیقاتی Project Mariner گوگل و قابلیتهای AI Mode در جستجوهای ایجنتمحور است.
رونمایی از این مدل تنها یک روز پس از معرفی قابلیت «اجرای اپلیکیشنها در ChatGPT» از سوی OpenAI انجام شده است که رقابت شدیدی در این حوزه را نشان میدهد. Gemini 2.5 Computer Use بهطور مستقیم پاسخ گوگل به قابلیتهای مشابه ChatGPT Agent از OpenAI و Claude's Computer Use از Anthropic است.
براساس بنچمارکهایی که گوگل منتشر کرده، این مدل در انجام وظایف کنترل وب و موبایل عملکرد بهتری نسبت به رقبای پیشرو خود از خود نشان داده است. اما یک تفاوت مهم وجود دارد: این مدل گوگل فعلاً فقط برای مرورگرها بهینهسازی شده و هنوز قابلیت کنترل کامل سیستمعامل دسکتاپ را ندارد.
مدل Gemini 2.5 Computer Use از امروز بهصورت پیشنمایش برای توسعهدهندگان از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI در دسترس قرار گرفته است.