🛡 چالش امنیت در مدل‌های زبانی: معرفی بنچمارک OpenSafeIntent

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

آیا هوش مصنوعی واقعاً در برابر دستورات مخرب «امن» عمل می‌کند؟ محققان در پژوهش جدیدی، بنچمارک «OpenSafeIntent» را معرفی کرده‌اند تا متوجه شوند آیا مدل‌ها می‌توانند قصد کاربر (Intent) را به درستی تشخیص دهند یا خیر.

نتایج این تحقیق نشان می‌دهد که بسیاری از مدل‌های کنونی، در محیط‌های تست، امن به نظر می‌رسند اما با تغییرات جزئی در لحن یا ساختار جملات (پارافریز)، در برابر درخواست‌های خطرناک یا دوگانه آسیب‌پذیر می‌شوند. این بنچمارک جدید راهی است برای ارزیابی دقیق‌تر و هوشمندانه‌ترِ امنیت مدل‌های هوش مصنوعی تا فراتر از ظاهرِ «امن بودن» حرکت کنیم.

منبع: arXiv AI