یکی از چالشهای بزرگ ایجنتهای هوش مصنوعی در محیطهای گرافیکی (GUI) این است که با طولانی شدن تسکها، هدف اصلی را فراموش میکنند یا در منوهای تکراری گیر میافتند. 😵💫
حالا محققان چارچوب جدیدی به نام «TSR» (Task-State Representation) معرفی کردهاند که مثل یک دستیار حافظه برای ایجنت عمل میکند. این ابزار با جداسازی «وضعیت فعلی تسک» از «تصویر صفحه»، کمک میکند ایجنت بداند دقیقاً کجای مسیر است و چه قدمی باید بردارد. نتیجه؟ تا ۱۲ درصد موفقیت بیشتر در کارهای پیچیده و چندمرحلهای در اپلیکیشنهای موبایل! 🚀
این یعنی به زودی شاهد ایجنتهای بسیار دقیقتر و قابلاعتمادتری خواهیم بود که کمتر دچار توهم یا سردرگمی میشوند.
منبع: arXiv NLP
