یکی از بزرگترین چالشهای دنیای هوش مصنوعی، کندی در زمان اجرای مدلهای زبانی انتشار است. دلیل این موضوع، ساختار توجه دوطرفه آنهاست که کش کردن KVهای پیشفرض را دشوار میکند.
محققان در این پژوهش روش جدیدی به نام «bicache» معرفی کردهاند که با شناسایی لایههای ایمن برای استفاده مجدد از کشها، توانسته سرعت سرویسدهی این مدلها را تا حدود ۹۸ درصد افزایش دهد، بدون اینکه دقت مدل دچار افت شود.
این دستاورد یک گام بزرگ برای کاربردیتر کردن مدلهای هوش مصنوعی در مقیاسهای صنعتی محسوب میشود.
منبع: arXiv AI
