محققان به تازگی بنچمارک جدیدی به نام «AgenticRAGTracer» معرفی کردهاند که تحولی در سنجش تواناییهای استدلالی ایجنتهای هوش مصنوعی ایجاد میکند.
مشکل اصلی مدلهای فعلی در سیستمهای RAG این است که ما نمیدانیم مدل دقیقاً در کدام مرحله از استدلال چندمرحلهای (Multi-hop) دچار اشتباه میشود. این ابزار جدید با خودکارسازی فرآیند ساخت دادهها، امکان ردیابی گامبهگام عملکرد ایجنتها را فراهم کرده است.
جالب اینجاست که در تستهای انجام شده، حتی مدلهای قدرتمندی مثل GPT-5 هم در بخشهای دشوار این بنچمارک با چالشهای جدی روبرو شدند! این یعنی هنوز مسیر زیادی تا رسیدن به استدلال بینقص باقی مانده است. 🤖🧠
منبع: arXiv NLP



