یکی از چالشهای اصلی در آموزش مدلهای زبانی، نویز موجود در دادههای رتبهبندی شده (Preference data) است. محققان به تازگی مقاله جدیدی منتشر کردهاند که روشی به نام «Distributionally Robust Listwise Preference Optimization» را معرفی میکند.
این متد که تمرکز آن بر بهینهسازی لیستمحور (Listwise) است، به جای مقایسههای دوتایی ساده، مدل را در برابر عدم قطعیت و خطاهای انسانی در رتبهبندیها مقاومتر میکند. به زبان ساده، این تکنیک باعث میشود مدلها حتی با وجود دادههای ناقص یا پر از نویز، خروجیهای دقیقتر و منطقیتری ارائه دهند و در فرآیند Alignment عملکرد بسیار باثباتتری داشته باشند. 🧠✨
منبع: arXiv AI



