تا به حال برایتان پیش آمده که هنگام آموزش یک مدل هوش مصنوعی، با وجود بهبود معیارهای عددی، عملکرد نهایی مدل در محیط واقعی ناگهان افت کند؟ این یک چالش بزرگ در یادگیری تقویتشده و مدلهای جهانمحور است!
محققان در مقاله جدیدی، روشی به نام CROF (امتیاز انتخاب چکپوینت بر اساس مشاهدهپذیری پاداش) را معرفی کردهاند. این روش با تحلیل ساختاری، پیشبینی میکند که کدام چکپوینت در محیطهای پیچیده (مانند LunarLander) بهترین عملکرد را در اجرای عملی و مدلسازی محیط خواهد داشت. با این تکنیک، مدلهای یادگیری تقویتشده نه تنها به عملکرد بسیار بهتری دست مییابند، بلکه تا ۶۵ برابر نیاز کمتری به تعامل با محیطهای آموزشی دارند! 🚀
این پیشرفت گام بزرگی برای آموزش ایجنتهای هوشمند با کارایی و پایداری بالاتر در محیطهای شبیهسازی شده است.
منبع: arXiv AI



