تا حالا شده در فیلمهای طولانی یا سریالهای پیچیده، تشخیص بدید چه کسی داره حرف میزنه؟ محققان بهتازگی راهکار جدیدی برای این چالش ارائه دادند.
مدل جدیدی به نام DramaSR-LRM با استفاده از قدرت استدلال مدلهای زبانی بزرگ (LLM)، میتواند با تحلیل همزمان صوت، متن و تصاویر، دقیقاً بگوید هر جمله متعلق به کدام شخصیت است.
این تحقیق با معرفی یک دیتاست عظیم شامل ۵۳۲ هزار خط دیالوگ، گام بزرگی برای درک عمیقتر محتوای ویدیویی برداشته و حتی در جملات کوتاه که ابزارهای قدیمی در آنها ضعیف عمل میکردند، عملکرد خیرهکنندهای دارد. 🎥🤖
منبع: arXiv AI



