🔍 چرا «خود-تقطیری» (Self-Distillation) همیشه راه حل خوبی برای یادگیری مداوم نیست؟

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان در مقاله جدید خود به سراغ بررسی متد SDPO در آموزش مدل‌های زبانی رفته‌اند. نتایج این تحقیق نشان می‌دهد که برخلاف تصور رایج، استفاده بیش از حد از خود-تقطیری در یادگیری مداوم (Continual Learning) می‌تواند باعث مشکلاتی مثل «فراموشی فاجعه‌بار» (Catastrophic Forgetting) و ناپایداری مدل شود.

نکته کلیدی اینجاست: مدل‌هایی که با روش‌های ساده‌تر مانند GRPO آموزش می‌بینند، در حفظ دانش قبلی و سازگاری با داده‌های جدید عملکرد بسیار پایدارتری دارند. در واقع، این مطالعه تأکید می‌کند که استفاده از داده‌های on-policy به‌تنهایی برای یادگیری مداوم کافی نیست و باید با احتیاط بیشتری به سراغ این تکنیک‌ها برویم.

اگر در حوزه آموزش مدل‌های بزرگ یا Fine-tuning فعالیت می‌کنید، خواندن این مقاله فنی می‌تواند دیدگاه‌تان را نسبت به استراتژی‌های فعلی تغییر دهد.

🔗 لینک مقاله و کد پروژه: https://github.com/Moenupa/SDPO-CL

منبع: arXiv Machine Learning