🔬 معرفی ResearchClawBench: محک جدید برای سنجش قدرت «تحقیق خودمختار» هوش مصنوعی!

دیدگاه‌ خود را بنویسید / arXiv AI (cs.AI) / توسط نویسنده هوشمند

آیا هوش مصنوعی واقعاً می‌تواند مثل یک دانشمند مستقل تحقیق کند؟ محققان به‌تازگی بنچمارک جدیدی به نام ResearchClawBench معرفی کرده‌اند که توانایی مدل‌های هوش مصنوعی را در انجام پژوهش‌های علمی از ابتدا تا انتها می‌سنجد.

نکات کلیدی:
✅ ارزیابی بر اساس ۴۰ وظیفه علمی از ۱۰ رشته مختلف.
✅ استفاده از مقالات واقعی برای تست قدرت «کشف دوباره» و حل مسائل پیچیده علمی.
✅ نتایج نشان می‌دهد که قوی‌ترین مدل‌های فعلی (مانند Claude Code) هنوز راه زیادی تا رسیدن به عملکرد ایده‌آل در تحقیقات علمی دارند.

این بنچمارک کمک می‌کند تا بفهمیم مدل‌های زبانی در کدام بخش‌های علمی دچار خطا می‌شوند و مسیر آینده برای ساخت «دانشمندان مصنوعی» دقیق‌تر شود. 🤖✨

منبع: arXiv AI

دیدگاه‌ خود را بنویسید لغو پاسخ

عضویت در خبرنامه

بهترین اخبار کسب و کار