محققان در مقاله جدیدی از روشی به نام «DecompRL» رونمایی کردهاند که به مدلهای زبانی (LLMs) کمک میکند مسائل دشوار کدنویسی را که قبلاً قادر به حلشان نبودند، مدیریت کنند.
🔹 چالش اصلی چیست؟
مدلهای فعلی یا با افزایش نمونهبرداری (که هزینه GPU را به شدت بالا میبرد) و یا با یادگیری تقویتی (RL) پیش میروند. اما وقتی با مسائل بسیار پیچیده روبرو میشوند، هر دو روش شکست میخورند.
🔹 راهکار DecompRL چیست؟
به جای زور زدن برای حل یکباره مسئله، این الگوریتم، کار را به زیر-بخشهای کوچکتر و قابلحل تقسیم میکند. سپس با ترکیب این ماژولها، فضای جستجو را برای یافتن پاسخ درست بهطور چشمگیری گسترش میدهد.
✅ نتیجه چیست؟
کاهش حدود ۵۰ برابری هزینههای سنگین GPU و حل مسائلی که تا پیش از این برای مدلهای قدرتمندی مثل Qwen 2.5 غیرممکن بود. یک گام بزرگ برای هوشمندتر کردن مدلهای برنامهنویس!
منبع: arXiv Machine Learning



