تا حالا فکر کردید مدلهای بزرگ زبانی (مثل GPT) با چه ترکیبی از دادهها آموزش دیدهاند؟ شرکتها معمولاً این «دستور پخت» سری را مخفی نگه میدارند، اما محققان روش جدیدی به نام WARP ابداع کردهاند که این دیوار سکوت را میشکند.
این ابزار جالب با تحلیل وزنهای مدل (Weight-Space)، میتواند دقیقاً بگوید که در فرآیند آموزش، چه سهمی از دادهها مربوط به کدام حوزهها بوده است. به زبان ساده، WARP ردپای هندسی دادههای آموزشی را در وزنهای مدل پیدا میکند و حتی از روشهای قبلی (مثل استنتاج عضویت) هم دقیقتر عمل میکند.
این پیشرفت نه تنها به شفافیت بیشتر در حوزه مدلهای زبانی کمک میکند، بلکه به محققان اجازه میدهد بفهمند پشت پرده قدرت این مدلها چه دادههایی خوابیده است. نظر شما چیه؟ به نظرتون این شفافیت باعث امنیت بیشتر میشه یا خطرناکتره؟
منبع: arXiv Machine Learning



