محققان در مقاله جدیدی از فریمورک نوآورانه SEPS رونمایی کردهاند که هدف آن حل یکی از چالشهای بزرگ هوش مصنوعی، یعنی «تطبیق دقیق متن و تصویر» است.
در مدلهای فعلی، وجود دادههای اضافی (Redundancy) و ابهام در پچهای تصویری، باعث کاهش کیفیت خروجی میشود. فریمورک SEPS با استفاده از یک مکانیسم دو مرحلهای، بهطور هوشمندانه پچهای تصویری مهم را شناسایی و با متنها هماهنگ میکند. نتایج آزمایشها روی مجموعهدادههای معتبر (مانند MS-COCO) نشان میدهد که این روش تا ۸۶٪ نسبت به مدلهای فعلی، دقت بیشتری در تطبیق بصری-زبانی دارد.
این یعنی قدمی بزرگ برای بهبود کیفیت سیستمهایی که بر پایه دیدن و درک همزمان تصاویر و متون (مانند VQA) کار میکنند. ✨
منبع: arXiv AI



