یکی از بزرگترین چالشهای سیستمهای RAG، مسئله «توهم» (Hallucination) است. تا امروز اکثر ابزارهای تشخیص توهم روی متنهای طبیعی تمرکز داشتند، اما یک مقاله جدید در arXiv راهکار تازهای ارائه داده است.
این پژوهش روی تشخیص توهم در سطح «اسپن» (Span-level) تمرکز دارد و نه تنها متن، بلکه کد، خروجی ابزارهای توسعهدهنده و دادههای ساختاریافته را هم پوشش میدهد. محققان با استفاده از مدل fine-tune شده Qwen3.5-2B توانستهاند عملکردی بسیار دقیقتر از مدلهای فعلی در شناسایی خطاهای هوش مصنوعی ارائه دهند که برای توسعهدهندگان سیستمهای هوشمند یک گام رو به جلو محسوب میشود.
اگر در حال ساخت ایجنتهای هوشمند یا سیستمهای متکی بر دادههای فنی هستید، مطالعه جزئیات این بنچمارک جدید بسیار راهگشا خواهد بود.
نویسی
منبع: arXiv NLP
