محققان در پژوهشی جدید روشی ابداع کردهاند که میتواند با تحلیل رفتار مدلهای زبانی (LLM)، وجود «گاردریلها» (Guardrails) یا همان فیلترهای امنیتی را تشخیص دهد. 🧐
این تکنولوژی که به صورت «جعبه سیاه» (بدون دسترسی به کدهای داخلی) عمل میکند، با دقت ۱۰۰٪ تشخیص میدهد که آیا پاسخ ندادن مدل به دلیل فیلترهای امنیتی است یا ضعف خود مدل! این یک گام بزرگ برای متخصصان امنیت سایبری است تا بهتر بفهمند سیستمهای هوش مصنوعی چطور از خودشان در برابر حملات محافظت میکنند.
این دستاورد نشان میدهد که نبرد میان مهاجمان و سیستمهای دفاعی هوش مصنوعی چقدر هوشمندانه و پیچیده شده است. نظر شما چیست؟ آیا این ابزارها امنیت را بیشتر میکنند یا خطر نفوذ را بالا میبرند؟
منبع: arXiv AI



