تا حالا فکر کردید برای آموزش یه مدل غولپیکر، چطور باید تعادل بین «تعداد مراحل آموزش» و «سایز بچ» (Batch Size) رو برقرار کرد؟
محققان در مقاله جدیدی، مدلِ «قانون سهگانه» رو معرفی کردن که به توسعهدهندهها اجازه میده بدون نیاز به صرف هزینههای سنگین و تستهای بیشمار، بهترین استراتژی برای تخصیص توکنها رو پیدا کنن. این متد جدید نه تنها دقیقتره، بلکه با دادههای کمتر، نتایج بسیار بهینهتری رو در تعیین سایز بچِ بهینه ارائه میده. یه قدم بزرگ دیگه برای هوشمندتر و ارزانتر کردن آموزش LLMها! 🧠💡
منبع: arXiv Machine Learning



