📊 ارزیابی هوشمند اسناد اداری با بنچمارک جدید OCB

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان به تازگی از بنچمارک جدیدی به نام OCB (Office Comprehension Bench) رونمایی کرده‌اند که برای اولین بار توانایی مدل‌های زبانی (LLM) را در درک دقیق فایل‌های آفیس (.docx, .xlsx, .pptx) به چالش می‌کشد.

این بنچمارک دو حوزه کلیدی را بررسی می‌کند:
۱. وفاداری به فایل: بررسی درک ساختار، جداول، نمودارها و فرمول‌ها.
۲. استدلال تخصصی: پاسخ به سوالات پیچیده در ۱۲ حوزه صنعتی مختلف.

جالب است بدانید حتی پیشرفته‌ترین مدل‌های حال حاضر در بخش استدلال تخصصی تنها موفق به کسب حدود ۵۹ درصد امتیاز شده‌اند که نشان‌دهنده راه درازی است که تا درک کامل اسناد اداری در پیش داریم! 📝🤖

منبع: arXiv AI