آیا هوش مصنوعی واقعاً در برابر دستورات مخرب «امن» عمل میکند؟ محققان در پژوهش جدیدی، بنچمارک «OpenSafeIntent» را معرفی کردهاند تا متوجه شوند آیا مدلها میتوانند قصد کاربر (Intent) را به درستی تشخیص دهند یا خیر.
نتایج این تحقیق نشان میدهد که بسیاری از مدلهای کنونی، در محیطهای تست، امن به نظر میرسند اما با تغییرات جزئی در لحن یا ساختار جملات (پارافریز)، در برابر درخواستهای خطرناک یا دوگانه آسیبپذیر میشوند. این بنچمارک جدید راهی است برای ارزیابی دقیقتر و هوشمندانهترِ امنیت مدلهای هوش مصنوعی تا فراتر از ظاهرِ «امن بودن» حرکت کنیم.
منبع: arXiv AI



