مدلهای زبانی بزرگ (LLM) در آزمونهای عمومی عالی عمل میکنند، اما آیا در تحلیلهای تخصصی تاریخ هنر هم به همین اندازه باهوش هستند؟
محققان به تازگی بنچمارک جدیدی به نام EduArt را معرفی کردهاند که شامل بیش از ۸۰۰ سوال تخصصی از آزمونهای معتبر تاریخ هنر است. نتیجه جالب این تحقیق این است که مدلها در سوالات چندگزینهای عالی عمل میکنند، اما وقتی پای تحلیلهای مفهومی و شناسایی خطا به میان میآید، دقت آنها به شدت افت میکند! این یعنی هنوز تا رسیدن به درک انسانی از هنر و ظرافتهای تاریخی فاصله داریم.
این بنچمارک به ما کمک میکند بفهمیم چرا روشهای فعلی برای ارزیابی مدلهای پیشرفته کافی نیستند. 👇
منبع: arXiv NLP



