🎙️ تشخیص دقیق‌تر شخصیت‌ها در فیلم و سریال با هوش مصنوعی!

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

تا حالا شده در فیلم‌های طولانی یا سریال‌های پیچیده، تشخیص بدید چه کسی داره حرف می‌زنه؟ محققان به‌تازگی راهکار جدیدی برای این چالش ارائه دادند.

مدل جدیدی به نام DramaSR-LRM با استفاده از قدرت استدلال مدل‌های زبانی بزرگ (LLM)، می‌تواند با تحلیل همزمان صوت، متن و تصاویر، دقیقاً بگوید هر جمله متعلق به کدام شخصیت است.

این تحقیق با معرفی یک دیتاست عظیم شامل ۵۳۲ هزار خط دیالوگ، گام بزرگی برای درک عمیق‌تر محتوای ویدیویی برداشته و حتی در جملات کوتاه که ابزارهای قدیمی در آن‌ها ضعیف عمل می‌کردند، عملکرد خیره‌کننده‌ای دارد. 🎥🤖

منبع: arXiv AI