OpenAI سیستم «اعترافگیری» هوش مصنوعی را معرفی کرد
OpenAI در حال توسعه یک چارچوب جدید برای آموزش مدلهای هوش مصنوعی است که هدف آن، تشویق مدلها به اعتراف صادقانه درباره رفتارهای نامطلوب خود است. این سیستم با تمرکز بر یکی از چالشهای جدی مدلهای زبانی، یعنی تمایل به ارائه پاسخهای مطلوب، تلاش میکند مدل را وادار کند تا توضیح دوم و مستقلی درباره نحوه رسیدن به پاسخ اصلی ارائه دهد.
یکی از رفتارهای رایج در مدلهای هوش مصنوعی امروزی، ارائه پاسخهای بیشازحد مطمئن است. همچنین برخی مدلها دچار Hallucination شده و پاسخهای نادرست ارائه میکنند.
OpenAI اعلام کرده که چارچوب جدید، که از آن با عنوان «سیستم اعتراف» یاد میشود، بهطور خاص تنها بر صداقت تمرکز دارد و معیارهای متنوع دیگری مثل کمکرسانی، دقت یا تبعیت از دستور که معمولاً برای ارزیابی پاسخ اصلی بهکار میروند، در آن لحاظ نمیشود.
گزارشدهی خطا توسط هوش مصنوعی
به گفته پژوهشگران OpenAI، هدف اصلی این است که مدل بتواند بدون ترس از جریمه درباره رفتارهای خود شفاف باشد؛ حتی اگر این رفتار مشکلزا تلقی شود. OpenAI توضیح داده است: «اگر مدل بهصورت صادقانه اعتراف کند که مثلاً آزمونی را هک کرده، از دستوری سرپیچی کرده یا بهطور عمدی عملکردش را پایین آورده، نهتنها جریمه نمیشود، بلکه پاداش بیشتری نیز دریافت میکند.»
طبق توضیحات محققان، چنین سیستمی میتواند شفافیت مدلهای زبانی را بهطور چشمگیری افزایش دهد و امکان نظارت دقیقتر بر رفتارهای پنهان مدل (اتفاقاتی که در پسزمینه یک پاسخ رخ میدهد) را فراهم کند. OpenAI همچنین امیدوار است که «سیستم اعتراف» به ابزاری کارآمد در نسلهای بعدی مدلهای زبانی تبدیل شود.