یکی از چالشهای بزرگ مدلهای زبانی، ناتوانی در قضاوت دقیق درباره پاسخهای طولانی و پیچیده است. حالا محققان با معرفی OpenRM، ابزاری مبتنی بر «پاداشدهی» (Reward Model) ساختهاند که به مدل اجازه میدهد برای ارزیابی بهتر، از ابزارهای خارجی برای جستجوی مدارک و شواهد استفاده کند! 🔍
این مدل با استفاده از تکنیک آموزشی GRPO، یاد میگیرد که چطور به صورت استراتژیک از ابزارها استفاده کند تا کیفیت پاسخهای نهایی را به شکل چشمگیری افزایش دهد. این یعنی پایان عصر حدس و گمانِ مدلهای زبانی در موضوعات تخصصی! 🚀
منبع: arXiv NLP
