رفتن به محتوا

⌁

اخبار هوش مصنوعی

تازه‌ها
ابزارها و نسخه‌های جدید
اخبار شرکت‌ها
تحلیل‌های جامعه فنی
مقالات علمی

جستجو

13 تیر 1405 · 16:51

🚀 پایان دوران بنچ‌مارک‌های قدیمی: معرفی MMBench-Live

خلاصه‌ی فارسی توسط رصد

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان در تازه‌ترین مقاله خود از MMBench-Live رونمایی کردند؛ یک بنچ‌مارک هوشمند و «زنده» برای مدل‌های چندوجهی (VLM) که مشکل قدیمی ثابت بودن آزمون‌ها را حل می‌کند.

💡 چرا این خبر مهم است؟
بیشتر بنچ‌مارک‌های فعلی با گذشت زمان قدیمی شده یا مدل‌ها پاسخ‌های آن‌ها را حفظ می‌کنند (Data Contamination). اما MMBench-Live با یک سیستم چندعامله (Multi-Agent)، به‌طور خودکار داده‌های جدید تولید می‌کند، با هزینه بسیار کم به‌روز می‌شود و جلوی تقلب مدل‌ها را می‌گیرد.

این یعنی ارزیابی مدل‌های بینایی-زبانی در آینده بسیار دقیق‌تر و قابل‌اعتمادتر خواهد بود.

🔗 لینک پروژه: https://github.com/PRIS-CV/MMBench-Live

منبع: arXiv AI

مرتبط — همین موضوع

💻 معرفی microide؛ محیط برنامه‌نویسی اختصاصی برای ایجنت‌های هوش مصنوعی!
📚 دایره‌المعارف اصطلاحات برنامه‌نویسی هوش مصنوعی؛ یادگیری سریع مفاهیم پیچیده!
📜 سیاست‌های جدید OpenAPI برای عصر هوش مصنوعی

⌁

اخبار هوش مصنوعی

رصدِ روزانه‌ی خبرهای هوش مصنوعی از منابع بین‌المللی، خلاصه‌شده به فارسی و همراه با ذکر منبع.

دسته‌ها

ابزارها و نسخه‌های جدید
اخبار شرکت‌ها
تحلیل‌های جامعه فنی
مقالات علمی

دنبال کنید

تماس

شماره تماس