محققان در مقاله جدیدی به بررسی هندسه توکنها در مدلهای زبانی پرداختهاند و راهکار جذابی برای بهینهسازی ارائه دادهاند! 💡
تکنولوژی جدیدی به نام «Ember» معرفی شده که با استفاده از هندسه گرادیان در لایههای Embedding و LM-head، نیاز به حافظه (VRAM) را به شکل چشمگیری کاهش میدهد. برخلاف بهینهسازهای سنگینی مثل Adam که فضای زیادی اشغال میکنند، Ember با مصرف حافظه بسیار کمتر، عملکرد مدلهای زبانی را در مراحل آموزش و تنظیم دقیق (Fine-tuning) بهبود میبخشد.
نکته جالب اینجاست که این تحقیق نشان میدهد مسیر بهینهسازی توکنها در واقعیت بسیار سادهتر از چیزی است که تصور میشد و برخلاف باور عمومی، نیازی به پیمایش مسیرهای پیچیده و غیرمحدب در فضای پارامترها نیست.
این ابزار به صورت متنباز منتشر شده و با معماریهای FSDP نیز کاملاً سازگار است.
🔗 لینک گیتهاب پروژه: https://github.com/katop1234/ember
سازی
منبع: arXiv AI



