اگر با کندی پاسخدهی مدلهای هوش مصنوعی (LLM) مواجه شدهاید، خبر خوبی در راه است! پژوهشگران راهکار جدیدی برای «مدیریت بار» (Load-Aware) در سرویسدهی به مدلهای زبانی ارائه دادهاند که تحولی در سرعت تولید متن ایجاد میکند.
در مدلهای فعلی، تفکیکِ بخش پیشپردازش (Prefill) و تولید توکن (Decode) باعث میشود با ترافیک بالا، نودهای پیشپردازش به گلوگاه تبدیل شوند. این تکنولوژی جدید با هوشمندی، بخشی از بار پیشپردازش را به نودهای Decode منتقل میکند و با حذف نیاز به انتقال دادههای سنگین بین نودها، تا ۸۱٪ تاخیر اولیه (TTFT) را کاهش داده و بهرهوری سرویس را بهشدت بالا میبرد.
این یعنی در آیندهای نزدیک، چتباتهای قدرتمند بسیار سریعتر و روانتر به سوالات ما پاسخ خواهند داد! ⚡️
منبع: arXiv AI



