محققان در یک مطالعه جدید، عملکرد ۶ مدل زبانی بزرگ (LLM) پیشرفته از جمله خانوادههای Gemini، ChatGPT و Claude را برای تصحیح امتحانات ریاضی مقطع کارشناسی ارزیابی کردهاند.
نکته جالب این تحقیق، مقایسه دو استراتژی «سختگیرانه» و «منعطف» در امتیازدهی است. نتایج نشان میدهد که مدلها با استفاده از دستورالعملهای منعطفتر (Liberal Prompting)، در تشخیص استدلالهای جزئی و منطق دانشآموزان دقت بسیار بالاتری دارند. مدل ChatGPT 5.5 Thinking در این ارزیابی موفق شد کمترین خطا را در تصحیح سوالات ثبت کند.
این پیشرفت میتواند مسیر را برای کاهش بار کاری استادان و ارائه بازخورد دقیقتر و فوریتر به دانشجویان هموار کند. 📝🤖
منبع: arXiv AI



