محققان به روش نوآورانهای دست پیدا کردهاند که میتواند پیش از استقرار مدلهای هوش مصنوعی (Checkpoints)، تشخیص دهد که آیا «مکانیسمهای امنیتی» (Refusal Mechanism) آنها توسط کاربران حذف شده است یا خیر (چیزی که به آن Abliteration میگویند).
🔹 چرا این موضوع مهم است؟
بسیاری از مدلهای متنباز (مثل Llama یا Qwen) ممکن است توسط افراد دستکاری شوند تا محدودیتهای امنیتیشان غیرفعال شود. این روش جدید با ترکیب دو سیگنال داخلی، میتواند با دقت بسیار بالا (AUROC 0.95) مدلهای دستکاری شده را از نسخههای سالم تفکیک کند.
این ابزار یک گام بزرگ برای توسعهدهندگان است تا قبل از استفاده از یک مدل، از سلامت و امنیت آن مطمئن شوند، هرچند که محققان تأکید دارند این روش برای «تریاژ» و ارزیابی است و نباید به عنوان یک راهکار ضد نفوذ مطلق به آن نگاه کرد.
منبع: arXiv AI



