یکی از چالشهای بزرگ مدلهای چندوجهی (Vision-Language Models)، سوگیریهای ناخودآگاه در تشخیص تصاویر و بازتولید کلیشههای اجتماعی است. روشهای فعلی معمولاً یا دقت مدل را کاهش میدهند یا در حذف سوگیری ناتواناند.
اما محققان با معرفی متد جدید «RG-TTA»، راهکار خلاقانهای پیدا کردهاند. این سیستم با استفاده از یادگیری تقویتی، در لحظه تشخیص میدهد کدام ورودی نیاز به اصلاح دارد و کدام ندارد. به این ترتیب، مدل نه تنها عادلانهتر عمل میکند، بلکه در کارهای عمومی هم دقت و کارایی بالاتری از خود نشان میدهد. 🚀
این پیشرفت گام بزرگی برای کاهش تبعیض در سیستمهای بینایی ماشین است.
منبع: arXiv NLP
