یکی از چالشهای بزرگ مدلهای زبانی (LLM)، مدیریت و استدلال صحیح روی متنهای بسیار طولانی است. معمولاً مدلها در پیدا کردن شواهد پراکنده در حجم عظیمی از دادهها دچار مشکل میشوند.
محققان بهتازگی فریمورک جدیدی به نام Maven معرفی کردهاند که با استفاده از «حافظه شواهد قابل ویرایش» و یادگیری تقویتی (RL)، به مدل یاد میدهد چطور به جای نگاه یکباره، مانند یک انسان شواهد را مرحلهبهمرحله جمعآوری، لینک یا حذف کند. نتایج آزمایشها روی مدلهای Llama و Qwen نشان میدهد که این روش، دقت استدلال را در بنچمارکهای طولانیمدت بهطور چشمگیری افزایش میدهد.
این یک قدم رو به جلو برای هوش مصنوعیهایی است که قرار است کتابها یا مستندات فنی طولانی را تحلیل کنند! 📚
منبع: arXiv AI



