گوگل مدل Gemini 2.5 Computer Use را با امکان کنترل مرورگر معرفی کرد

نوشته شده توسط رهام بخشائي

۱۶ مهر، ۱۴۰۴

گوگل مدل Gemini 2.5 Computer Use را با امکان کنترل مرورگر معرفی کرد

نوشته شده توسط رهام بخشائي

۱۶ مهر، ۱۴۰۴

گوگل از مدل جدید و تخصصی خود با نام Gemini 2.5 Computer Use رونمایی کرد. این هوش مصنوعی به گونه‌ای طراحی شده که می‌تواند مانند یک انسان واقعی با وب‌سایت‌ها و رابط‌های کاربری گرافیکی (GUI) تعامل داشته باشد و وظایف پیچیده‌ای را به‌طور خودکار انجام دهد، از جمله کلیک کردن، اسکرول کردن و تایپ کردن.
برخلاف مدل‌های سنتی که برای تعامل با نرم‌افزارها به API نیاز دارند، Gemini 2.5 Computer Use به‌طور مستقیم رابط کاربری گرافیکی را درک می‌کند. در این مدل، هوش مصنوعی یک اسکرین‌شات از صفحه مرورگر به همراه درخواست کاربر دریافت می‌کند و سپس با استفاده از توانایی‌های پیشرفته درک بصری خود، صفحه را تحلیل کرده و بهترین اقدام بعدی، مانند کلیک کردن روی یک دکمه یا تایپ در یک فیلد متنی را تعیین می‌کند. این فرآیند تا تکمیل وظیفه ادامه می‌یابد و در هر مرحله یک اسکرین‌شات جدید گرفته می‌شود. در حال حاضر، این مدل از ۱۳ اقدام اصلی مانند باز کردن مرورگر، تایپ، کلیک، اسکرول و Drag and Drop پشتیبانی می‌کند.
مدل Gemini 2.5 Computer Use برای خودکارسازی کارهای پیچیده‌ای که در مرورگرها انجام می‌شوند، بسیار مناسب است. گوگل برای نمایش قدرت این هوش مصنوعی، دو دمو ارائه داده است: در یکی از دموها، هوش مصنوعی اطلاعات حیوانات خانگی را از یک وب‌سایت پیدا کرده و آنها را در سیستم مدیریت مشتری (CRM) در یک وب‌سایت دیگر وارد می‌کند و حتی قرار ملاقات‌هایی برای آنها تنظیم می‌کند. در دمو دیگر، این مدل یک تخته یادداشت دیجیتال به‌هم‌ریخته را با کشیدن و رها کردن یادداشت‌ها در دسته‌بندی‌های صحیح مرتب می‌کند.
جالب است که این فناوری، پایه‌گذار پروژه تحقیقاتی Project Mariner گوگل و قابلیت‌های AI Mode در جستجوهای ایجنت‌محور است.
رونمایی از این مدل تنها یک روز پس از معرفی قابلیت «اجرای اپلیکیشن‌ها در ChatGPT» از سوی OpenAI انجام شده است که رقابت شدیدی در این حوزه را نشان می‌دهد. Gemini 2.5 Computer Use به‌طور مستقیم پاسخ گوگل به قابلیت‌های مشابه ChatGPT Agent از OpenAI و Claude's Computer Use از Anthropic است.
براساس بنچمارک‌هایی که گوگل منتشر کرده، این مدل در انجام وظایف کنترل وب و موبایل عملکرد بهتری نسبت به رقبای پیشرو خود از خود نشان داده است. اما یک تفاوت مهم وجود دارد: این مدل گوگل فعلاً فقط برای مرورگرها بهینه‌سازی شده و هنوز قابلیت کنترل کامل سیستم‌عامل دسکتاپ را ندارد.
مدل Gemini 2.5 Computer Use از امروز به‌صورت پیش‌نمایش برای توسعه‌دهندگان از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI در دسترس قرار گرفته است.