محققان در مقالهای جدید نشان دادند که در یادگیری تقویتی، برخلاف تصور رایج، همیشه «بدبینی زیاد» (Pessimism) مانع تعمیمدهی بهتر نیست.
نکته کلیدی اینجاست: به جای تمرکز صرف بر میزان بدبینی، باید روی ساختار آن تمرکز کرد. اگر ساختارِ بدبینانه با تقارنهای مسئله همخوانی داشته باشد، مدل بسیار بهتر عمل میکند. این تحقیق همچنین پیشنهاد میکند که استفاده از «افزایش داده» (Data Augmentation) در مرحله استخراج سیاست (Policy Extraction) بسیار موثرتر از روشهای سنتی است.
این یافتهها راهگشای آموزش مدلهای هوش مصنوعی دقیقتر و بهینهتر در محیطهایی است که دادههای محدودی دارند.
منبع: arXiv AI



