محققان در یک مطالعه تازه، روشی برای دور زدن فیلترهای ایمنی مدلهای زبانی بزرگ (LLMs) پیدا کردهاند. این حمله از طریق «قطعهقطعه کردن توکنها» (BPE Tokenization) انجام میشود.
به زبان ساده: مدلهای هوش مصنوعی وقتی کلمات حساس را به تکههای کوچکتر تقسیم میکنند، ممکن است هوشیاری ایمنی خود را از دست بدهند و به راحتی فریب بخورند. این تحقیق روی مدلهای معروفی مثل Llama 3.1 و Qwen تست شده و نشان میدهد که حتی مدلهای قدرتمند هم در برابر این دستکاریهای متنی آسیبپذیر هستند.
این یافته یک زنگ خطر برای توسعهدهندگان است تا به فکر روشهای دفاعی جدید برای محافظت از خروجیهای مدل در برابر حملات متنی باشند.
منبع: arXiv AI



