محققان در تازهترین مقاله خود از MMBench-Live رونمایی کردند؛ یک بنچمارک هوشمند و «زنده» برای مدلهای چندوجهی (VLM) که مشکل قدیمی ثابت بودن آزمونها را حل میکند.
💡 چرا این خبر مهم است؟
بیشتر بنچمارکهای فعلی با گذشت زمان قدیمی شده یا مدلها پاسخهای آنها را حفظ میکنند (Data Contamination). اما MMBench-Live با یک سیستم چندعامله (Multi-Agent)، بهطور خودکار دادههای جدید تولید میکند، با هزینه بسیار کم بهروز میشود و جلوی تقلب مدلها را میگیرد.
این یعنی ارزیابی مدلهای بینایی-زبانی در آینده بسیار دقیقتر و قابلاعتمادتر خواهد بود.
🔗 لینک پروژه: https://github.com/PRIS-CV/MMBench-Live
منبع: arXiv AI



