محققان به تازگی از بنچمارک جدیدی به نام OCB (Office Comprehension Bench) رونمایی کردهاند که برای اولین بار توانایی مدلهای زبانی (LLM) را در درک دقیق فایلهای آفیس (.docx, .xlsx, .pptx) به چالش میکشد.
این بنچمارک دو حوزه کلیدی را بررسی میکند:
۱. وفاداری به فایل: بررسی درک ساختار، جداول، نمودارها و فرمولها.
۲. استدلال تخصصی: پاسخ به سوالات پیچیده در ۱۲ حوزه صنعتی مختلف.
جالب است بدانید حتی پیشرفتهترین مدلهای حال حاضر در بخش استدلال تخصصی تنها موفق به کسب حدود ۵۹ درصد امتیاز شدهاند که نشاندهنده راه درازی است که تا درک کامل اسناد اداری در پیش داریم! 📝🤖
منبع: arXiv AI



