محققان در مقالهای جدید از کتابخانه «TileFuse» رونمایی کردهاند که یک راهکار فوقالعاده برای بهینهسازی اجرای مدلهای زبانی بزرگ (LLM) روی پردازشگرهای عصبی (NPU) لپتاپهای مجهز به AMD است.
چالش اصلی همیشه این بوده که فرمتهای کوانتایزیشن (مثل AWQ) به راحتی با سختافزارهای NPU هماهنگ نمیشوند، اما TileFuse با ترکیب عملیاتهای سنگین در یک هسته واحد، عملکرد اجرای مدل را تا ۲۸۱٪ افزایش داده است. این یعنی کاهش مصرف انرژی و افزایش سرعت برای کاربرانی که میخواهند هوش مصنوعی را به صورت محلی و روی دستگاه خود اجرا کنند. 💻⚡️
منبع: arXiv AI
