محققان به تازگی روشی نوآورانه برای بهینهسازی مدلهای مولد تصویر (Visual Generative Models) معرفی کردهاند که مشکل رایج «هک کردن پاداش» (Reward Hacking) را حل میکند.
در روشهای فعلی، مدلها معمولاً بر اساس پاداشهای تکی آموزش میبینند که اغلب باعث افت تنوع تصاویر یا بروز ناهنجاریهای بصری میشود. در این رویکرد جدید که با نام «پاداش توزیعمحور» (Distribution-wise Rewards) ارائه شده، مدل به جای تمرکز بر تکتصویر، کل توزیع دادهها را در نظر میگیرد.
نتیجه این تغییر چیست؟
✅ افزایش چشمگیر کیفیت بصری تصاویر (بهبود شاخص FID)
✅ حفظ تنوع تصاویر و جلوگیری از تکراری شدن خروجیها
✅ کاهش هزینههای محاسباتی سنگین با استفاده از استراتژی جدید جایگزینی زیرمجموعه
این پیشرفت میتواند مسیر را برای تولید تصاویر واقعگرایانهتر و خلاقانهتر هموارتر کند.
منبع: arXiv Machine Learning



