تا به حال فکر کردهاید که چرا مدلهای زبانی گاهی در کار با APIها یا محیطهای کاری مثل جیرا (Jira) و کانفلوئنس (Confluence) دچار اشتباه میشوند؟ مشکل اینجاست که آنها برای «پیشبینی کلمه بعدی» آموزش دیدهاند، نه برای «انجام دقیق کارها».
محققان در یک پژوهش جدید، رویکردی متفاوت با نام RLVR (یادگیری تقویتی با پاداشهای قابلسنجش) را آزمایش کردهاند. نتیجه شگفتانگیز بود: مدلهای کوچکتر (مثل سری Qwen)، با این روش توانستند عملکرد خود را در محیطهای کاری پیچیده بهشدت بهبود دهند و نرخ موفقیت را به ۱۰۰٪ نزدیک کنند! 📈
این یعنی در آیندهای نزدیک، دستیارهای هوشمند نه تنها متن مینویسند، بلکه به متخصصانِ بینقصِ محیطهای کاری تبدیل خواهند شد. آیا مدلهای زبانی کوچک با این متد، جایگزین ایجنتهای سنگین میشوند؟
منبع: arXiv AI



