محققان بهتازگی بنچمارک جدیدی به نام «Pre-Flight» را معرفی کردهاند که به طور اختصاصی برای ارزیابی دانش عملیاتی مدلهای زبانی (LLM) در حوزه هوانوردی طراحی شده است.
این بنچمارک شامل ۳۰۰ سوال تخصصی از استانداردهای بینالمللی ICAO، قوانین FAA و سناریوهای پیچیده عملیات فرودگاهی است که توسط متخصصان هوانوردی تدوین شدهاند.
نکته جالب اینجاست که حتی قدرتمندترین مدلهای هوش مصنوعی سال ۲۰۲۶ هم هنوز با سطح دقت متخصصان انسانی (۹۵٪) فاصله دارند و به رکورد ۸۲.۷٪ رسیدهاند. این شکاف نشان میدهد که برای استفاده از هوش مصنوعی در حوزههای فوق حساس و تخصصی مثل هوانوردی، هنوز راه زیادی تا رسیدن به اطمینان کامل باقی مانده است.
منبع: arXiv AI



