🧠 تکنیک جدید برای تقویت استدلال مدل‌های زبانی: عبور از محدودیت‌های OPSD

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان در پژوهش جدیدی به چالش عجیبی در یادگیری مدل‌های زبانی بزرگ (LLM) پرداخته‌اند: چرا روش‌های خود-تقطیری (Self-Distillation) در مدل‌هایی که از زنجیره تفکر (Chain-of-Thought) استفاده می‌کنند، گاهی به‌جای پیشرفت، باعث تخریب قدرت استدلال می‌شوند؟

تیم محققان متوجه شدند که مدل‌های دانش‌آموز به‌جای یادگیری نحوه حل مسئله، صرفاً میان‌برهای حافظه را حفظ می‌کنند. آن‌ها راهکار هوشمندانه‌ای به نام Purified OPSD معرفی کرده‌اند که با جداسازی سیگنال‌های «حفظ‌کردنی» از «استدلالی»، اجازه می‌دهد مدل فقط منطق حل مسئله را یاد بگیرد. نتیجه؟ بهبود چشمگیر عملکرد در مدل‌های پیچیده استدلالی! 🚀

منبع: arXiv AI