محققان در مقاله جدیدی روشی نوآورانه به نام «یادگیری تقویتی معکوس مبتنی بر ناحیه اعتماد» (TRIRL) معرفی کردهاند که شکاف بین دقت روشهای کلاسیک و سرعت روشهای جدید را پر میکند.
✅ چرا این خبر مهم است؟
مدلهای یادگیری تقویتی معکوس (IRL) معمولاً یا بسیار ناپایدارند یا به محاسبات سنگین نیاز دارند. الگوریتم TRIRL با استفاده از بهروزرسانیهای محلی، به پایداری بالا و بهبود یکنواخت عملکرد دست یافته و در وظایف دشوار، تا ۲.۴ برابر بهتر از متدهای فعلی عمل میکند.
این یک گام بزرگ برای توسعه مدلهای هوش مصنوعی است که باید رفتار انسان را دقیقاً شبیهسازی کنند.
منبع: arXiv AI
