یکی از بزرگترین چالشهای اجرای مدلهای زبانی (LLM) روی متون طولانی، مصرف سنگین حافظه توسط «KV Cache» است. معمولاً برای حل این مشکل از فشردهسازی استفاده میشود، اما تا به حال این کار بیشتر تجربی بود.
محققان در مقاله جدید خود به سراغ مدلسازی ریاضی این مشکل رفتهاند تا بفهمند دقیقاً چه زمانی و چگونه میتوان این کش را بدون افت دقت فشرده کرد. آنها با معرفی اصولی جدید برای الگوریتمهای فشردهسازی، موفق شدند علاوه بر ارائه تضمینهای تئوری، عملکرد بهتری را در بنچمارکهای معروف مثل LongBench ثبت کنند. این یعنی راه برای اجرای روانتر و سریعتر مدلهای هوش مصنوعی روی سختافزارهای محدودتر هموارتر شده است! 💡
سازی
منبع: arXiv Machine Learning



