تا حالا فکر کردید که چطور بفهمیم یک عامل هوشمند (AI Agent) واقعاً بر اساس دادههای درست پاسخ داده یا فقط «حدس» زده؟ مدلهای LLM-as-a-Judge اغلب در تشخیص پاسخهای فریبنده اما نادرست ناتوانند.
محققان با معرفی فریمورک جدید GroundEval، این مشکل را حل کردهاند. این ابزار به جای تکیه بر قضاوتِ خودِ مدلها، با بررسی دقیق «مسیر» جستجو، شواهد و دسترسیهای عامل، به صورت قطعی (Deterministic) ارزیابی میکند که آیا پاسخ مستند بوده یا خیر.
✅ چرا این خبر مهم است؟
این فریمورک سه ضعف بزرگ مدلهای فعلی یعنی «سکوت» (ادعای عدم وجود)، «پرسپکتیو» (محدودیت زمانی دسترسی) و «علتوسلول» را با دقت بالا شناسایی میکند تا خطای هوش مصنوعی در محیطهای واقعی به حداقل برسد.
منبع: arXiv AI



