نتایج یک تحقیق جدید و جذاب نشان میدهد که ممکن است نیازی به آموزش تمام لایههای یک مدل ترنسفورمر برای رسیدن به بهترین عملکرد در یادگیری تقویتی (RL) نباشد! 📉
بر اساس این پژوهش، تنها با آموزش تعداد محدودی از لایهها (و گاهی اوقات فقط یک لایه)، میتوان نتایجی مشابه و حتی بهتر از آموزش کل پارامترهای مدل به دست آورد. محققان متوجه شدند که لایههای میانی مدلهای ترنسفورمر، نقش بسیار کلیدیتری نسبت به لایههای ابتدا و انتها در بهبود هوش مدل ایفا میکنند.
این کشف میتواند انقلابی در بهینهسازی هزینههای آموزش مدلهای بزرگ ایجاد کند، چرا که دیگر لازم نیست منابع پردازشی سنگینی صرف تغییر تمام پارامترهای مدل شود. 🚀
منبع: arXiv Machine Learning
