🧠 رمزگشایی از معماری ترنسفورمرها با ابزار جدید CoAx

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

در حوزه تفسیرپذیری مکانیکی (Mechanistic Interpretability)، محققان با چالش جالبی روبرو بودند: وقتی بخشی از یک مدل هوش مصنوعی (مانند ترنسفورمرها) را حذف می‌کنیم، گاهی مدل خودش را «ترمیم» می‌کند! این باعث می‌شود تشخیص اهمیت دقیق بخش‌های مختلف دشوار شود.

حالا روش جدیدی به نام «Conditional Co-Ablation» یا به اختصار CoAx معرفی شده که می‌تواند این فرآیند «خود-ترمیم» را شناسایی کند. با این روش، محققان متوجه می‌شوند که کدام بخش‌های مدل در صورت حذف لایه‌های اصلی، وارد عمل می‌شوند. این دستاورد به ما کمک می‌کند مدل‌های دقیق‌تر، قابل‌اطمینان‌تر و بهینه‌تری بسازیم.

این پیشرفت گام بزرگی برای فهمیدن «جعبه سیاه» مدل‌های زبانی است!

منبع: arXiv AI