🚀 بهبود دقت در دنیای هوش مصنوعی چندوجهی (Multimodal) با فریم‌ورک SEPS 🧠

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان در مقاله جدیدی از فریم‌ورک نوآورانه SEPS رونمایی کرده‌اند که هدف آن حل یکی از چالش‌های بزرگ هوش مصنوعی، یعنی «تطبیق دقیق متن و تصویر» است.

در مدل‌های فعلی، وجود داده‌های اضافی (Redundancy) و ابهام در پچ‌های تصویری، باعث کاهش کیفیت خروجی می‌شود. فریم‌ورک SEPS با استفاده از یک مکانیسم دو مرحله‌ای، به‌طور هوشمندانه پچ‌های تصویری مهم را شناسایی و با متن‌ها هماهنگ می‌کند. نتایج آزمایش‌ها روی مجموعه‌داده‌های معتبر (مانند MS-COCO) نشان می‌دهد که این روش تا ۸۶٪ نسبت به مدل‌های فعلی، دقت بیشتری در تطبیق بصری-زبانی دارد.

این یعنی قدمی بزرگ برای بهبود کیفیت سیستم‌هایی که بر پایه دیدن و درک همزمان تصاویر و متون (مانند VQA) کار می‌کنند. ✨

منبع: arXiv AI