تا حالا به این فکر کردید که چطور عملکرد مدلهای زبانی در شناسایی خطاها رو میسنجیم؟ محققان در پژوهش جدیدی به پدیده جالبی به نام «تورم F1» برخوردند! 📉
تحقیقات نشون داده که روشهای معمولِ «شمارش خطا» در LLMها میتونه گمراهکننده باشه. یعنی ممکنه امتیاز مدل در تشخیص خطا بالا بره، بدون اینکه واقعاً در پیدا کردن محل دقیق خطا (Span Localization) پیشرفتی کرده باشه.
این مقاله با معرفی ابزار ارزیابی جدیدی به نام ErrorBench، ثابت کرده که نوعِ دستورالعمل (Prompt) میتونه باعث بشه مدلها اعداد اغراقآمیزی رو گزارش کنن. این یافته زنگ خطری برای محققان و توسعهدهندههست تا برای ارزیابی دقیقترِ سیستمهای اصلاح متن، به جای تکیه بر شمارش ساده، از معیارهای هوشمندانهتر و دقیقتری استفاده کنند.
دنیای ارزیابی هوش مصنوعی هر روز پیچیدهتر و دقیقتر میشه! 🧠🚀
منبع: arXiv AI



