یکی از بزرگترین چالشهای مدلهای زبانی بزرگ (LLM)، مصرف سنگین حافظه در پردازش متون طولانی است. حالا محققان روش جدیدی به نام «GSRQ» (مخفف Gain-Shape Residual Quantization) معرفی کردند که انقلابی در فشردهسازی «KV Cache» ایجاد کرده است.
نکته هیجانانگیز اینجاست که این روش با فشردهسازی به زیر ۱ بیت، نهتنها حافظه کمتری اشغال میکند، بلکه دقت مدلهایی مثل LLaMA-3 را به طرز چشمگیری افزایش داده است! در آزمایشها، این تکنیک توانسته دقت مدل را در بنچمارکهای طولانی از ۱۱٪ به حدود ۳۳٪ برساند که یک پیشرفت خیرهکننده محسوب میشود. این دستاورد یعنی میتوانیم در آینده مدلهای قدرتمندتر را روی سختافزارهای ضعیفتر هم اجرا کنیم. 🧠💡
منبع: arXiv Machine Learning
