محققان تکنیک جدیدی به نام «STEER» را معرفی کردهاند که نشان میدهد مدلهای زبانی (LLM) چقدر در برابر حملات «جییلبریک» (Jailbreak) آسیبپذیرند.
🔹 ماجرا چیست؟ اکثر مدلهای هوش مصنوعی با دادههای انگلیسی آموزش دیدهاند. این حمله با ترجمه کلمات کلیدی به زبانهای کممنابع، مکانیزمهای امنیتی مدل را دور میزند و باعث میشود مدلها علیرغم آموزشهای ایمنی، پاسخهای خطرناک تولید کنند.
🔹 چرا مهم است؟ این تحقیق ثابت میکند امنیت فعلی هوش مصنوعی در برابر زبانهای غیرانگلیسی بسیار شکننده است. این حمله حتی روی مدلهای قدرتمندی مثل GPT-4o-mini نیز با نرخ موفقیت قابلتوجهی عمل میکند.
این یافتهها زنگ خطری برای شرکتهای بزرگ است تا در آموزشهای خود، تنوع زبانی را جدیتر بگیرند.
منبع: arXiv AI



