محققان با معرفی بنچمارک جدید AnyGroundBench، چالش جدیدی را برای مدلهای هوش مصنوعی چندوجهی (Multimodal) ایجاد کردهاند. این بنچمارک به جای تکیه بر تستهای عمومی و ساده، تمرکز خود را بر «سازگاری با حوزههای تخصصی» قرار داده است.
این پروژه شامل ویدیوهای تخصصی در حوزههای حیاتی مثل پزشکی (جراحی)، صنعت، ورزش و امنیت است تا نشان دهد مدلهای فعلی چقدر در درک مفاهیم خاص و محیطهای پیچیده عملکرد خوبی دارند. نتایج اولیه نشان میدهد که اکثر مدلهای پیشرفته در شرایط دنیای واقعی هنوز ضعفهای جدی دارند و نیاز به بهبود در «یادگیری در متن» (ICL) و تطبیقپذیری دارند.
این تحقیق گام مهمی است برای اینکه بدانیم هوش مصنوعی چقدر به درک واقعی از محیطهای پیچیده انسانی نزدیک شده است.
منبع: arXiv AI



