محققان در مقالهای جدید، روش نوآورانهای به نام «هدایت فعالسازی» (Activation Steering) معرفی کردهاند که به مدلهای زبانی بزرگ (مثل Llama و Qwen) کمک میکند تا حتی در مواجهه با دستورات مخرب یا فریبنده، همچنان صادق و دقیق باقی بمانند.
این روش که با استفاده از تکنیکهای پیشرفتهای مثل StTP و StMP پیادهسازی شده، به هوش مصنوعی اجازه میدهد بدون آسیب دیدن دانش و مهارتهای عمومیاش، رفتارهای غیرایمن یا فریبکارانه را در زمان اجرا شناسایی و متوقف کند. این یک گام بزرگ برای امنیت هوش مصنوعی در محیطهای واقعی و چندعاملی است! ✨
منبع: arXiv AI



