مدلهای بینایی-زبانی (مثل CLIP) که قلب تپنده اکثر هوش مصنوعیهای مدرن هستند، یک نقطه ضعف عجیب دارند: آنها گاهی به جای تحلیل تصویر، فریب نوشتههای موجود در تصویر را میخورند (حمله تایپوگرافی)! 📝🚫
محققان در یک مطالعه جدید، روشی ابداع کردهاند که بدون نیاز به آموزش مجدد مدل، دقیقاً مشخص میکند کدام بخشهای مدل درگیر این اشتباه میشوند. با دستکاری هوشمندانه این بخشها، میتوان دقت و امنیت مدلها را در برابر این خطاها به شدت افزایش داد. این دستاورد، گام بزرگی برای امنیت سیستمهایی مثل خودروهای خودران است که نباید با دیدن یک کلمه اشتباه در تابلوها، دچار خطا شوند! 🚗💨
منبع: arXiv NLP



