✈️ سنجش هوش مصنوعی در دنیای هوانوردی؛ آیا LLMها می‌توانند خلبانان و متخصصان را کمک کنند؟

خلاصه‌ی فارسی توسط رصد

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان به‌تازگی بنچمارک جدیدی به نام «Pre-Flight» را معرفی کرده‌اند که به طور اختصاصی برای ارزیابی دانش عملیاتی مدل‌های زبانی (LLM) در حوزه هوانوردی طراحی شده است.

این بنچمارک شامل ۳۰۰ سوال تخصصی از استانداردهای بین‌المللی ICAO، قوانین FAA و سناریوهای پیچیده عملیات فرودگاهی است که توسط متخصصان هوانوردی تدوین شده‌اند.

نکته جالب اینجاست که حتی قدرتمندترین مدل‌های هوش مصنوعی سال ۲۰۲۶ هم هنوز با سطح دقت متخصصان انسانی (۹۵٪) فاصله دارند و به رکورد ۸۲.۷٪ رسیده‌اند. این شکاف نشان می‌دهد که برای استفاده از هوش مصنوعی در حوزه‌های فوق حساس و تخصصی مثل هوانوردی، هنوز راه زیادی تا رسیدن به اطمینان کامل باقی مانده است.

منبع: arXiv AI