محققان در مقاله جدید خود به سراغ بررسی متد SDPO در آموزش مدلهای زبانی رفتهاند. نتایج این تحقیق نشان میدهد که برخلاف تصور رایج، استفاده بیش از حد از خود-تقطیری در یادگیری مداوم (Continual Learning) میتواند باعث مشکلاتی مثل «فراموشی فاجعهبار» (Catastrophic Forgetting) و ناپایداری مدل شود.
نکته کلیدی اینجاست: مدلهایی که با روشهای سادهتر مانند GRPO آموزش میبینند، در حفظ دانش قبلی و سازگاری با دادههای جدید عملکرد بسیار پایدارتری دارند. در واقع، این مطالعه تأکید میکند که استفاده از دادههای on-policy بهتنهایی برای یادگیری مداوم کافی نیست و باید با احتیاط بیشتری به سراغ این تکنیکها برویم.
اگر در حوزه آموزش مدلهای بزرگ یا Fine-tuning فعالیت میکنید، خواندن این مقاله فنی میتواند دیدگاهتان را نسبت به استراتژیهای فعلی تغییر دهد.
🔗 لینک مقاله و کد پروژه: https://github.com/Moenupa/SDPO-CL
منبع: arXiv Machine Learning



