🎨 آیا هوش مصنوعی در هنر هم نمره قبولی می‌گیرد؟ معرفی بنچ‌مارک EduArt

خلاصه‌ی فارسی توسط رصد

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

مدل‌های زبانی بزرگ (LLM) در آزمون‌های عمومی عالی عمل می‌کنند، اما آیا در تحلیل‌های تخصصی تاریخ هنر هم به همین اندازه باهوش هستند؟

محققان به تازگی بنچ‌مارک جدیدی به نام EduArt را معرفی کرده‌اند که شامل بیش از ۸۰۰ سوال تخصصی از آزمون‌های معتبر تاریخ هنر است. نتیجه جالب این تحقیق این است که مدل‌ها در سوالات چندگزینه‌ای عالی عمل می‌کنند، اما وقتی پای تحلیل‌های مفهومی و شناسایی خطا به میان می‌آید، دقت آن‌ها به شدت افت می‌کند! این یعنی هنوز تا رسیدن به درک انسانی از هنر و ظرافت‌های تاریخی فاصله داریم.

این بنچ‌مارک به ما کمک می‌کند بفهمیم چرا روش‌های فعلی برای ارزیابی مدل‌های پیشرفته کافی نیستند. 👇

منبع: arXiv NLP