محققان دنیای هوش مصنوعی به تازگی بنچمارک جدیدی به نام TestEvo-Bench را معرفی کردهاند که میتواند بازی را برای مدلهای برنامهنویس تغییر دهد! 💻✨
تا امروز، بسیاری از بنچمارکهای هوش مصنوعی، تستهای نرمافزاری را جدا از تغییرات کد در نظر میگرفتند. اما واقعیت این است که در پروژههای واقعی، کد و تست باید با هم رشد کنند (Co-evolution). این بنچمارک شامل بیش از ۱۲۰۰ وظیفه عملیاتی در دو بخش است:
۱. تولید تست: نوشتن تستهای جدید برای رفتارهای تازه کد.
۲. بهروزرسانی تست: اصلاح تستهای قدیمی برای تطبیق با تغییرات جدید کد.
ویژگی جذاب این ابزار، «زنده» بودن آن است؛ یعنی بهطور خودکار از پروژههای متنباز بهروزرسانی میشود تا مدلهای هوش مصنوعی نتوانند با حفظ کردن دادههای قدیمی، تقلب کنند! این یعنی ارزیابی دقیقتر و واقعیتر برای توانایی ایجنتهای هوش مصنوعی در درک تغییرات نرمافزاری.
منبع: arXiv AI



