یکی از بزرگترین مشکلات هوش مصنوعی در یادگیری تقویتی (Reinforcement Learning)، این است که مدلها گاهی به جزئیات بیربط محیط عادت میکنند و نمیتوانند در محیطهای جدید عملکرد درستی داشته باشند.
محققان به تازگی الگوریتم جدیدی به نام «T2RD» معرفی کردند که با جداسازی هوشمندانه «ویژگیهای اصلی» از «ویژگیهای بیربط»، دقت و کارایی مدلها را در رباتیک و کنترل محیطها به سطح جدیدی (SOTA) رسانده است. این یعنی رباتها در آینده با هوش بیشتری در دنیای واقعی حرکت میکنند!
منبع: arXiv Machine Learning
