محققان در یک مطالعه جدید روی بنچمارک پزشکی MedQADE متوجه شدند که اگرچه مدلهای زبانی (مثل Gemini 3 Flash) میتوانند در پاسخدهی به سوالات پزشکی به سطح دقت پزشکان برسند، اما یک مشکل حیاتی دارند: «فقدان احتیاط بالینی»!
💡 نکته اصلی:
پزشکان انسان هنگام برخورد با موارد دشوار یا نامطمئن، از پاسخ دادن امتناع میکنند، اما مدلهای هوش مصنوعی تمایل دارند در هر شرایطی یک پاسخ قطعی ارائه دهند که این میتواند در محیطهای درمانی خطرناک باشد. همچنین، مدلها تمایل دارند به مدلهای همخانواده خود امتیاز بهتری بدهند (سوگیری ساختاری).
این یافتهها نشان میدهد که صرفاً بالا بودن دقت آماری (Statistical Alignment) به معنای هوشمندی واقعی یا قابلیت اعتماد کامل هوش مصنوعی در پزشکی نیست و هنوز راه درازی برای جایگزینی متخصصان در پیش داریم.
منبع: arXiv NLP
