🚨 هوش مصنوعی و یک حفره امنیتی جدید: بازی با توکن‌ها! 🛡️

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان در یک مطالعه تازه، روشی برای دور زدن فیلترهای ایمنی مدل‌های زبانی بزرگ (LLMs) پیدا کرده‌اند. این حمله از طریق «قطعه‌قطعه کردن توکن‌ها» (BPE Tokenization) انجام می‌شود.

به زبان ساده: مدل‌های هوش مصنوعی وقتی کلمات حساس را به تکه‌های کوچک‌تر تقسیم می‌کنند، ممکن است هوشیاری ایمنی خود را از دست بدهند و به راحتی فریب بخورند. این تحقیق روی مدل‌های معروفی مثل Llama 3.1 و Qwen تست شده و نشان می‌دهد که حتی مدل‌های قدرتمند هم در برابر این دستکاری‌های متنی آسیب‌پذیر هستند.

این یافته یک زنگ خطر برای توسعه‌دهندگان است تا به فکر روش‌های دفاعی جدید برای محافظت از خروجی‌های مدل در برابر حملات متنی باشند.

منبع: arXiv AI