یکی از چالشهای بزرگ در اجرای مدلهای زبانی (LLMs)، مصرف بسیار زیاد حافظه و کندی در هنگام تولید متنهای طولانی (Chain-of-Thought) است. حالا محققان روش جدیدی به نام Kara را معرفی کردهاند که با استفاده از تکنیک فشردهسازی هوشمند KV Cache، این مشکل را هدف قرار داده است.
این روش نه تنها حافظه مصرفی را کاهش میدهد، بلکه با استفاده از ماژول جدید Token2Chunk، دقت حفظ اطلاعات کلیدی را در حین استنتاج افزایش میدهد. این دستاورد میتواند سرعت پاسخدهی ایجنتها و مدلهای هوش مصنوعی را به شکل چشمگیری بهبود ببخشد. 💡
منبع: arXiv AI



