آیا هوش مصنوعی واقعاً میتواند مثل یک دانشمند مستقل تحقیق کند؟ محققان بهتازگی بنچمارک جدیدی به نام ResearchClawBench معرفی کردهاند که توانایی مدلهای هوش مصنوعی را در انجام پژوهشهای علمی از ابتدا تا انتها میسنجد.
نکات کلیدی:
✅ ارزیابی بر اساس ۴۰ وظیفه علمی از ۱۰ رشته مختلف.
✅ استفاده از مقالات واقعی برای تست قدرت «کشف دوباره» و حل مسائل پیچیده علمی.
✅ نتایج نشان میدهد که قویترین مدلهای فعلی (مانند Claude Code) هنوز راه زیادی تا رسیدن به عملکرد ایدهآل در تحقیقات علمی دارند.
این بنچمارک کمک میکند تا بفهمیم مدلهای زبانی در کدام بخشهای علمی دچار خطا میشوند و مسیر آینده برای ساخت «دانشمندان مصنوعی» دقیقتر شود. 🤖✨
منبع: arXiv AI
