🎥 تحول در درک روایت‌ها توسط هوش مصنوعی با بنچمارک NarrativeTrack

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان در مطالعه‌ای جدید، ضعف مدل‌های زبانی-تصویری (MLLM) در درک صحیح وقایع ویدئویی را هدف قرار داده‌اند. با وجود پیشرفت‌های بزرگ، این مدل‌ها هنوز در «دنبال کردن موجودیت‌ها» (Entities) در طول زمان و تشخیص تغییرات آن‌ها دچار مشکل هستند.

بنچمارک جدیدی به نام NarrativeTrack معرفی شده که با استفاده از چارچوب «استدلال ترکیبی» (CRP)، توانایی مدل‌ها را در سه سطحِ وجود موجودیت، تغییرات و ابهام بررسی می‌کند. نتایج نشان می‌دهد که مدل‌های فعلی، علی‌رغم درک بصری خوب، در حفظ انسجام زمانی ضعیف عمل کرده و گاهی دچار توهم هویتی می‌شوند. این قدمی بزرگ برای ساخت هوش مصنوعی است که واقعاً فیلم‌ها را «می‌فهمد» و نه فقط آن‌ها را «می‌بیند». 🤖✨

منبع: arXiv Machine Learning