آیا تا به حال به این فکر کردید که چطور میتوان «ذهن» مدلهای زبانی بزرگ را بهتر خواند؟ محققان در مقاله جدیدی از روشی به نام Expander SAEs رونمایی کردهاند که یک گام بزرگ برای «تفسیرپذیری مکانیکی» (Mechanistic Interpretability) مدلهاست.
تکنیکهای فعلی (Sparse Autoencoders) برای درک ویژگیهای نهفته در مدلها بسیار سنگین و پرهزینه هستند. اما با روش جدید Expander SAEs، میتوان با استفاده از ساختارهای ریاضی خاص (Expander masks)، حافظه مورد نیاز برای دیکودرها را تا ۲۹۳ برابر کاهش داد، بدون اینکه دقت تفسیر مدلها به شکل چشمگیری افت کند! این دستاورد به ما کمک میکند تا مدلهای عظیم را با منابع محاسباتی بسیار کمتر و دقت بسیار بالاتر تحلیل کنیم. 🚀
منبع: arXiv AI



