محققان در مقاله جدیدی از فریمورک نوآورانه DemoPSD رونمایی کردهاند که چالش بزرگی را در فرآیند خود-تقطیری (Self-Distillation) مدلهای زبانی حل میکند.
مشکل کجاست؟ در روشهای متداول، مدل دانشآموز بیش از حد به «اطلاعات ممتاز» (Privileged Information) مدل معلم وابسته میشود که این موضوع باعث افت خلاقیت، بیشبرازش (Overfitting) و نشت اطلاعات پاسخها میشود که در زمان تست در دسترس نیستند.
✨ ویژگیهای اصلی DemoPSD:
🔹 تنظیم هوشمند: این مدل به جای تقلید کورکورانه از معلم، از یک روش ترکیبی (Reverse-KL barycenter) استفاده میکند تا توازن بهتری بین یادگیری از معلم و حفظ قدرت استدلال مستقل خود برقرار کند.
🔹 کاهش نشت اطلاعات: به طور مؤثری از انتقال میانبرهای پاسخمحور به مدل دانشآموز جلوگیری میکند.
🔹 حفظ قدرت کاوش: به مدل کمک میکند در فرآیند یادگیری، توانایی خلاقانه و کاوشگرانه خود را از دست ندهد.
این نوآوری گامی مهم برای بهبود عملکرد مدلهای زبانی در استدلالهای پیچیده و تعمیم بهتر به دامنههای جدید است.
منبع: arXiv AI



