آیا میدانستید تکرار کردن بخشهایی از متن ورودی (Prompt) به مدلهای زبانی کمک میکند تا استدلال بهتری داشته باشند؟ اما این کار معمولاً باعث اشغال فضای حافظه و کندی سیستم میشود.
محققان با معرفی روش PartRep راه حل هوشمندانهای پیدا کردهاند:
🔹 به جای تکرارِ کل متن، فقط بخشهای مهم و «غیرقابل پیشبینی» انتخاب و تکرار میشوند.
🔹 با این کار، حدود ۴۰ درصد در حافظه KV و ۲۰ درصد در محاسبات (FLOPs) صرفهجویی میشود.
🔹 این روش روی مدلهای قدرتمندی مثل Qwen2.5 و Llama3.2 تست شده و نتایج خیرهکنندهای در بنچمارکهای ریاضی و استدلالی داشته است.
این یک قدم بزرگ برای استفاده بهینهتر از مدلهای زبانی در پروژههای سنگین و طولانی است! 🚀
منبع: arXiv Machine Learning



