در حوزه تفسیرپذیری مکانیکی (Mechanistic Interpretability)، محققان با چالش جالبی روبرو بودند: وقتی بخشی از یک مدل هوش مصنوعی (مانند ترنسفورمرها) را حذف میکنیم، گاهی مدل خودش را «ترمیم» میکند! این باعث میشود تشخیص اهمیت دقیق بخشهای مختلف دشوار شود.
حالا روش جدیدی به نام «Conditional Co-Ablation» یا به اختصار CoAx معرفی شده که میتواند این فرآیند «خود-ترمیم» را شناسایی کند. با این روش، محققان متوجه میشوند که کدام بخشهای مدل در صورت حذف لایههای اصلی، وارد عمل میشوند. این دستاورد به ما کمک میکند مدلهای دقیقتر، قابلاطمینانتر و بهینهتری بسازیم.
این پیشرفت گام بزرگی برای فهمیدن «جعبه سیاه» مدلهای زبانی است!
منبع: arXiv AI



