محققان در مقاله جدیدی راهکاری ارائه دادهاند که مشکل «اندازه بچ» (Batch Size) در آموزش مدلهای بزرگ را به شکلی متفاوت حل میکند.
تا امروز، تنظیم اندازه بچ برای بهینهسازهایی مثل Signum یا Muon (که در مدلهای پیشرفتهای مثل Llama استفاده میشوند) معمولاً دستی و هزینهبر بود. اما این روش جدید با استفاده از «مقیاسهای نویز گرادیان غیر-اقلیدسی»، به مدل اجازه میدهد به صورت خودکار و هوشمند اندازه بچ را تنظیم کند.
نتایج فوقالعاده است: تا ۶۶٪ کاهش در گامهای آموزشی بدون افت عملکرد! این یعنی صرفهجویی عظیم در زمان و قدرت پردازشی برای توسعهدهندگان مدلهای زبانی.
های_زبانی نویسی
منبع: arXiv AI



