🔓 آسیب‌پذیری جدید در امنیت هوش مصنوعی: فراتر از زبان انگلیسی!

خلاصه‌ی فارسی توسط رصد

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان تکنیک جدیدی به نام «STEER» را معرفی کرده‌اند که نشان می‌دهد مدل‌های زبانی (LLM) چقدر در برابر حملات «جی‌یل‌بریک» (Jailbreak) آسیب‌پذیرند.

🔹 ماجرا چیست؟ اکثر مدل‌های هوش مصنوعی با داده‌های انگلیسی آموزش دیده‌اند. این حمله با ترجمه کلمات کلیدی به زبان‌های کم‌منابع، مکانیزم‌های امنیتی مدل را دور می‌زند و باعث می‌شود مدل‌ها علی‌رغم آموزش‌های ایمنی، پاسخ‌های خطرناک تولید کنند.

🔹 چرا مهم است؟ این تحقیق ثابت می‌کند امنیت فعلی هوش مصنوعی در برابر زبان‌های غیرانگلیسی بسیار شکننده است. این حمله حتی روی مدل‌های قدرتمندی مثل GPT-4o-mini نیز با نرخ موفقیت قابل‌توجهی عمل می‌کند.

این یافته‌ها زنگ خطری برای شرکت‌های بزرگ است تا در آموزش‌های خود، تنوع زبانی را جدی‌تر بگیرند.

منبع: arXiv AI