دانشمندان به یک ضعف بزرگ در مدلهای Vision-Language-Action (VLA) پی بردهاند که آن را «کوری زبانی» مینامند. در این حالت، رباتها وقتی دستورات متناقض با محیط دریافت میکنند، باز هم به کارهای قبلی خود ادامه میدهند و بیشتر به «تصاویر» تکیه میکنند تا «دستورات متنی»!
حالا محققان روشی به نام IGAR معرفی کردهاند که بدون نیاز به آموزش دوباره، توجه مدل را به دستورات زبانیِ کاربر برمیگرداند تا رباتها دقیقتر و منطقیتر عمل کنند. این قدمی بزرگ برای هوشمندتر کردن بازوهای رباتیک در آینده است. 🛠️✨
منبع: arXiv AI



