محققان در مطالعهای جدید، ضعف مدلهای زبانی-تصویری (MLLM) در درک صحیح وقایع ویدئویی را هدف قرار دادهاند. با وجود پیشرفتهای بزرگ، این مدلها هنوز در «دنبال کردن موجودیتها» (Entities) در طول زمان و تشخیص تغییرات آنها دچار مشکل هستند.
بنچمارک جدیدی به نام NarrativeTrack معرفی شده که با استفاده از چارچوب «استدلال ترکیبی» (CRP)، توانایی مدلها را در سه سطحِ وجود موجودیت، تغییرات و ابهام بررسی میکند. نتایج نشان میدهد که مدلهای فعلی، علیرغم درک بصری خوب، در حفظ انسجام زمانی ضعیف عمل کرده و گاهی دچار توهم هویتی میشوند. این قدمی بزرگ برای ساخت هوش مصنوعی است که واقعاً فیلمها را «میفهمد» و نه فقط آنها را «میبیند». 🤖✨
منبع: arXiv Machine Learning



