محققان در مقالهای جدید به سراغ حل یکی از چالشهای بزرگ مدلهای بینایی-زبانی (LVLM) رفتند: «خطا در تحلیل تصاویر». این مدلها وقتی در موقعیتهای جدید قرار میگیرند، گاهی در استدلالهای خود دچار اشتباه میشوند.
تکنیک جدیدی به نام VRRL معرفی شده که از یادگیری تقویتی برای تقویت «خوداصلاحی» مدل استفاده میکند. با این روش، مدل یاد میگیرد به جای تکیه بر حدسهای اولیه، با بازبینی دقیقتر ورودیهای بصری (مثل نمودارها و جداول) و اصلاح خطاهای میانی، خروجیهای بسیار دقیقتری ارائه دهد. این دستاورد به ویژه برای کار با دادههای خارج از چارچوب (Out-of-distribution) فوقالعاده کاربردی است. 🚀
منبع: arXiv NLP



