🚀 پایان دوران بنچ‌مارک‌های قدیمی: معرفی MMBench-Live

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان در تازه‌ترین مقاله خود از MMBench-Live رونمایی کردند؛ یک بنچ‌مارک هوشمند و «زنده» برای مدل‌های چندوجهی (VLM) که مشکل قدیمی ثابت بودن آزمون‌ها را حل می‌کند.

💡 چرا این خبر مهم است؟
بیشتر بنچ‌مارک‌های فعلی با گذشت زمان قدیمی شده یا مدل‌ها پاسخ‌های آن‌ها را حفظ می‌کنند (Data Contamination). اما MMBench-Live با یک سیستم چندعامله (Multi-Agent)، به‌طور خودکار داده‌های جدید تولید می‌کند، با هزینه بسیار کم به‌روز می‌شود و جلوی تقلب مدل‌ها را می‌گیرد.

این یعنی ارزیابی مدل‌های بینایی-زبانی در آینده بسیار دقیق‌تر و قابل‌اعتمادتر خواهد بود.

🔗 لینک پروژه: https://github.com/PRIS-CV/MMBench-Live

منبع: arXiv AI