دنیای هوش مصنوعی روزبهروز تخصصیتر میشود! محققان بهتازگی «StatEval» را معرفی کردهاند؛ بنچمارکی جامع و بزرگ برای ارزیابی توانایی مدلهای زبانی (LLMs) در حل مسائل پیچیده آماری.
نکات کلیدی این دستاورد:
🔹 دارای بیش از ۱۰۰ هزار سوال، از مباحث پایهای دانشگاهی تا اثباتهای سطح تحقیقاتی.
🔹 استفاده از ابزار TRACE برای تبدیل متون آکادمیک به وظایف استدلال دقیق.
🔹 نتایج نشان میدهد که مدلهای فعلی در مباحث پایه عملکرد خوبی دارند، اما در اثباتهای سنگین تحقیقاتی هنوز با چالش روبرو هستند.
این پروژه نه تنها یک ابزار سنجش، بلکه بستری برای تقویت هوش مصنوعی در حوزه آمار و ریاضیات پیشرفته است. 💡
منبع: arXiv NLP



