نتایج جستجو

OpenAI سیستم «اعتراف‌گیری» هوش مصنوعی را معرفی کرد

OpenAI چارچوب «سیستم اعتراف» را توسعه داده تا مدل‌های هوش مصنوعی صادقانه رفتارهای نامطلوب خود را گزارش کنند.

نوشته شده توسط هدی کاظمی نسب

۱۳ آذر، ۱۴۰۴

OpenAI سیستم «اعتراف‌گیری» هوش مصنوعی را معرفی کرد

نوشته شده توسط هدی کاظمی نسب

۱۳ آذر، ۱۴۰۴

OpenAI در حال توسعه یک چارچوب جدید برای آموزش مدل‌های هوش مصنوعی است که هدف آن، تشویق مدل‌ها به اعتراف صادقانه درباره رفتارهای نامطلوب خود است. این سیستم با تمرکز بر یکی از چالش‌های جدی مدل‌های زبانی، یعنی تمایل به ارائه پاسخ‌های مطلوب، تلاش می‌کند مدل را وادار کند تا توضیح دوم و مستقلی درباره نحوه رسیدن به پاسخ اصلی ارائه دهد.
یکی از رفتارهای رایج در مدل‌های هوش مصنوعی امروزی، ارائه پاسخ‌های بیش‌ازحد مطمئن است. همچنین برخی مدل‌ها دچار Hallucination شده و پاسخ‌های نادرست ارائه می‌کنند.
OpenAI اعلام کرده که چارچوب جدید، که از آن با عنوان «سیستم اعتراف» یاد می‌شود، به‌طور خاص تنها بر صداقت تمرکز دارد و معیارهای متنوع دیگری مثل کمک‌رسانی، دقت یا تبعیت از دستور که معمولاً برای ارزیابی پاسخ اصلی به‌کار می‌روند، در آن لحاظ نمی‌شود.

گزارش‌دهی خطا توسط هوش مصنوعی

به گفته پژوهشگران OpenAI، هدف اصلی این است که مدل بتواند بدون ترس از جریمه درباره رفتارهای خود شفاف باشد؛ حتی اگر این رفتار مشکل‌زا تلقی شود. OpenAI توضیح داده است: «اگر مدل به‌صورت صادقانه اعتراف کند که مثلاً آزمونی را هک کرده، از دستوری سرپیچی کرده یا به‌طور عمدی عملکردش را پایین آورده، نه‌تنها جریمه نمی‌شود، بلکه پاداش بیشتری نیز دریافت می‌کند.»
طبق توضیحات محققان، چنین سیستمی می‌تواند شفافیت مدل‌های زبانی را به‌طور چشمگیری افزایش دهد و امکان نظارت دقیق‌تر بر رفتارهای پنهان مدل (اتفاقاتی که در پس‌زمینه یک پاسخ رخ می‌دهد) را فراهم کند. OpenAI همچنین امیدوار است که «سیستم اعتراف» به ابزاری کارآمد در نسل‌های بعدی مدل‌های زبانی تبدیل شود.

تکنولوژی

اشتراک گذاری: