محققان در پژوهش جدیدی به چالش عجیبی در یادگیری مدلهای زبانی بزرگ (LLM) پرداختهاند: چرا روشهای خود-تقطیری (Self-Distillation) در مدلهایی که از زنجیره تفکر (Chain-of-Thought) استفاده میکنند، گاهی بهجای پیشرفت، باعث تخریب قدرت استدلال میشوند؟
تیم محققان متوجه شدند که مدلهای دانشآموز بهجای یادگیری نحوه حل مسئله، صرفاً میانبرهای حافظه را حفظ میکنند. آنها راهکار هوشمندانهای به نام Purified OPSD معرفی کردهاند که با جداسازی سیگنالهای «حفظکردنی» از «استدلالی»، اجازه میدهد مدل فقط منطق حل مسئله را یاد بگیرد. نتیجه؟ بهبود چشمگیر عملکرد در مدلهای پیچیده استدلالی! 🚀
منبع: arXiv AI



