🕵️‍♂️ کشف دستور پخت محرمانه مدل‌های هوش مصنوعی با WARP

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

تا حالا فکر کردید مدل‌های بزرگ زبانی (مثل GPT) با چه ترکیبی از داده‌ها آموزش دیده‌اند؟ شرکت‌ها معمولاً این «دستور پخت» سری را مخفی نگه می‌دارند، اما محققان روش جدیدی به نام WARP ابداع کرده‌اند که این دیوار سکوت را می‌شکند.

این ابزار جالب با تحلیل وزن‌های مدل (Weight-Space)، می‌تواند دقیقاً بگوید که در فرآیند آموزش، چه سهمی از داده‌ها مربوط به کدام حوزه‌ها بوده است. به زبان ساده، WARP ردپای هندسی داده‌های آموزشی را در وزن‌های مدل پیدا می‌کند و حتی از روش‌های قبلی (مثل استنتاج عضویت) هم دقیق‌تر عمل می‌کند.

این پیشرفت نه تنها به شفافیت بیشتر در حوزه مدل‌های زبانی کمک می‌کند، بلکه به محققان اجازه می‌دهد بفهمند پشت پرده قدرت این مدل‌ها چه داده‌هایی خوابیده است. نظر شما چیه؟ به نظرتون این شفافیت باعث امنیت بیشتر میشه یا خطرناک‌تره؟

منبع: arXiv Machine Learning