تا به حال دقت کردید که اکثر بنچمارکهای حل مسائل ریاضی و برنامهریزی خطی (LP) ثابت هستند؟ این یعنی احتمال دارد سوالات در دیتای آموزشی مدلهای آینده لو برود!
محققان برای حل این مشکل، بنچمارک هوشمند A²utoLPBench را معرفی کردهاند که به جای استفاده از لیستهای ثابت، خودش سوال تولید میکند!
✅ ویژگیهای جذاب این بنچمارک:
۱. تولید بینهایت مسئله: دیگر نگران تمام شدن سوالات نباشید.
۲. پاسخهای دقیق: پاسخها بر اساس ساختار مسئله و بدون دخالت انسان طراحی شدهاند.
۳. مناسب برای ایجنتها: این سیستم یک محیط کامل (Docker) ارائه میدهد تا مدلهای هوش مصنوعی بتوانند مستقیماً در آن تست شوند.
این ابزار نه تنها هزینهها را کاهش میدهد، بلکه راهکاری عالی برای ارزیابی واقعی توانایی استدلال مدلهای زبانی در مسائل بهینهسازی است.
منبع: arXiv AI



