محققان در مقاله جدیدی از چارچوب نوآورانه Rank-Then-Act (RTA) رونمایی کردهاند که به عاملهای هوشمند اجازه میدهد تنها با مشاهده ویدئوهای آموزشی، کارهای مختلف را یاد بگیرند. 🎥
نکته هیجانانگیز اینجاست که در این روش دیگر نیازی به تعریف «پاداش» (Reward) برای محیط نیست. مدل RTA با تحلیل ترتیب زمانی فریمهای ویدئویی و استفاده از مدلهای زبانی-تصویری (VLM)، یاد میگیرد که مراحل انجام یک کار چیست و چگونه آن را با موفقیت اجرا کند. این یعنی گامی بزرگ به سمت آموزش خودکار هوش مصنوعی در محیطهای پیچیده بدون نیاز به دخالت دستی برای تعریف اهداف!
این متد در تستهای مختلف، از بازیهای کلاسیک تا محیطهای کنترلی پیوسته، عملکرد بسیار درخشانی داشته و راه را برای ساخت عاملهای هوشمند مستقلتر باز کرده است.
منبع: arXiv AI



