محققان تکنیک جدید و بسیار سریعی به نام RFM-AGOP معرفی کردند که میتواند نحوه «امتناع» مدلهای زبانی بزرگ از پاسخدهی به سوالات مضر را در چند ثانیه شناسایی کند!
🔹 چرا این خبر مهم است؟
قبلاً فکر میکردیم مدلها فقط در یک جهت خطی خاص از پاسخ امتناع میکنند، اما حالا میدانیم این رفتار در فضای چندبعدی پیچیدهای نهفته است. استخراج این فضاها قبلاً بسیار زمانبر بود، اما با این روش جدید، حتی در مدلهای استدلالگر (مثل Qwen 3)، شناسایی این فضاها به سرعت و با دقت بالا انجام میشود.
این پیشرفت نه تنها به بهبود ایمنی (Safety) مدلها کمک میکند، بلکه راه را برای فهم بهترِ «جعبه سیاه» هوش مصنوعی هموارتر میسازد.
منبع: arXiv AI



