🚀 معرفی TestEvo-Bench: بنچمارکی برای تکامل هم‌زمان کد و تست 🧪

خلاصه‌ی فارسی توسط رصد

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان دنیای هوش مصنوعی به تازگی بنچمارک جدیدی به نام TestEvo-Bench را معرفی کرده‌اند که می‌تواند بازی را برای مدل‌های برنامه‌نویس تغییر دهد! 💻✨

تا امروز، بسیاری از بنچمارک‌های هوش مصنوعی، تست‌های نرم‌افزاری را جدا از تغییرات کد در نظر می‌گرفتند. اما واقعیت این است که در پروژه‌های واقعی، کد و تست باید با هم رشد کنند (Co-evolution). این بنچمارک شامل بیش از ۱۲۰۰ وظیفه عملیاتی در دو بخش است:

۱. تولید تست: نوشتن تست‌های جدید برای رفتارهای تازه کد.
۲. به‌روزرسانی تست: اصلاح تست‌های قدیمی برای تطبیق با تغییرات جدید کد.

ویژگی جذاب این ابزار، «زنده» بودن آن است؛ یعنی به‌طور خودکار از پروژه‌های متن‌باز به‌روزرسانی می‌شود تا مدل‌های هوش مصنوعی نتوانند با حفظ کردن داده‌های قدیمی، تقلب کنند! این یعنی ارزیابی دقیق‌تر و واقعی‌تر برای توانایی ایجنت‌های هوش مصنوعی در درک تغییرات نرم‌افزاری.

منبع: arXiv AI