یادگیری تقویتی (RL) برای آموزش مدلهای زبانی عالی است، اما مشکلاتی مثل بیثباتی در آموزش و افت تنوع خروجیها همیشه چالشبرانگیز بوده. محققان به تازگی روشی به نام FADE ارائه کردهاند که با تحلیل هوشمندِ وزندهی به گرادیانها، این مشکل را حل میکند.
این متد جدید به صورت پویا (Dynamic) تصمیم میگیرد که مدل روی چه بخشهایی از آموزش تمرکز کند تا هم دقت بالا برود و هم تنوع پاسخها حفظ شود. نتیجه کار؟ رسیدن به بالاترین دقت در بنچمارکهای برنامهنویسی و ریاضی، بسیار سریعتر از متدهای قبلی! 🤖✨
منبع: arXiv AI



