محققان در یک مطالعه جدید، عملکرد مدلهای پیشرو مثل GPT-5.4، Claude Opus 4.7 و Gemini 3.1 را در سناریوهای پیچیده پزشکی بررسی کردند. نتیجه جالب و در عین حال هشداردهنده است:
🔹 این مدلها در کارهای کماهمیت (Low-stakes) عملکرد خوبی دارند (تا ۹۰٪)، اما در تشخیصهای حیاتی و حساس که مستقیماً با جان بیمار در ارتباط است (Critical tasks)، شکست میخورند!
🔹 بیش از نیمی از معیارهای حیاتی توسط هیچکدام از این مدلها رعایت نشد.
این تحقیق نشان میدهد که اگرچه LLMها در پاسخهای عمومی عالی هستند، اما هنوز فاصله زیادی تا تبدیل شدن به یک دستیار قابل اعتماد برای پزشکان در تصمیمگیریهای حساس دارند.
منبع: arXiv AI



