🚀 بهینه‌سازی مدل‌های غول‌آسا: معرفی متد جدید برای هرس هوشمند MoE

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

مدل‌های زبانی با معماری Mixture-of-Experts (MoE) به دلیل حجم بالا همیشه چالشی برای سخت‌افزارها بوده‌اند. حالا محققان متد جدیدی به نام «Generic TB-Coverage» معرفی کرده‌اند که اجازه می‌دهد بدون نیاز به داده‌های کالیبراسیون پیچیده و اختصاصی، این مدل‌ها را به شکل بهینه‌ای هرس (Pruning) کنید.

این روش با تحلیل هوشمندانه داده‌های عمومی، متخصص‌های (Experts) حیاتی مدل را شناسایی و حفظ می‌کند تا در کنار کاهش وزن مدل، دقت آن به شدت حفظ شود. این دستاورد، به خصوص برای مدل‌های بزرگی مثل Qwen و DeepSeek در شرایط فشرده‌سازی سنگین، نتایج درخشانی نشان داده است. 🧠✨

منبع: arXiv AI