محققان در مقاله جدید خود به سراغ حل چالش ویرایش فایلهای صوتی بر اساس دستورات متنی رفتهاند. روشهای فعلی معمولاً در فهم دقیق دستورات و حفظ کیفیت صوتی دچار مشکل میشوند، اما این مدل جدید با استفاده از یک معماری «دو مرحلهای» (Coarse-to-Fine) و بهرهگیری از Rectified Flow، تعادل فوقالعادهای میان کیفیت ویرایش و سرعت پردازش ایجاد کرده است.
این مدل با تفکیک مراحل پردازش بین جزئیات و ساختار کلی صوت، جهشی بزرگ در دقتِ ادیتهای مبتنی بر متن (Instruction-guided audio editing) محسوب میشود. 🚀
منبع: arXiv AI
