دانشمندان به تازگی چارچوب ارزیابی جدیدی برای مدلهای زبانی بزرگ (LLM) معرفی کردهاند که فراتر از معیارهای سادهای مثل Perplexity عمل میکند. در دنیای آموزش در زمان تست (TTT)، اغلب مدلها با معیارهای کلی سنجیده میشوند، اما این پژوهش بر «حافظه رفتاری» مدلها متمرکز است.
این یعنی به جای نگاه کردن به اعداد ساده، بررسی میکنند که آیا مدل واقعاً اطلاعات جدید را یاد گرفته و میتواند در شرایط مختلف (مثل بازنویسی یا حفظ اطلاعات در طول زمان) از آنها استفاده کند یا خیر. این دستاورد میتواند گام بزرگی برای شخصیسازی بهتر و هوش مصنوعیهای کارآمدتر باشد. 🚀
منبع: arXiv NLP
