محققان در مقاله جدید خود به سراغ چالش «تراز کردن» (Alignment) مدلهای زبانی با ارزشهای انسانی رفتهاند. مشکل روشهای فعلی این است که وقتی میخواهیم مدل را همزمان با چندین هدف مختلف هماهنگ کنیم، گاهی خروجیها با هم تداخل پیدا میکنند.
روش جدید MI-EPO با استفاده از یک رویکرد تئوری اطلاعات، باعث میشود مدل بتواند بین اهداف مختلف بهدرستی تمایز قائل شود. این یعنی کنترل بیشتر روی خروجی مدل و تعادل بهتر بین کارایی و امنیت در دستیارهای هوشمند. قدمی رو به جلو برای مدلهایی که قرار است دقیقاً همانطور که میخواهیم رفتار کنند! 🚀
منبع: arXiv NLP



