محققان در مقاله جدید خود، فریمورک VLAFlow را معرفی کردهاند که یک رویکرد یکپارچه برای آموزش مدلهای «بینایی-زبان-عمل» (VLA) محسوب میشود.
این مدل با بررسی حدود ۵۰۰۰ ساعت داده رباتیک، به دنبال حل چالشهای یادگیری از دادههای متنوع است. نتیجه تحقیقات نشان میدهد که ترکیب «نظارت زبانی» با «تراز نهفته آینده» (Future Latent Alignment)، به رباتها کمک میکند تا در محیطهای واقعی و شبیهسازیشده، عملکرد بسیار باثباتتر و دقیقتری در انجام وظایف داشته باشند. این یعنی گامی بزرگتر برای نزدیکتر شدن رباتها به درک محیطی مشابه انسان! 🤖✨
منبع: arXiv AI



