آیا هوش مصنوعی میتواند به طور همزمان صداهای نویزدار را شفاف کند و گوینده اصلی را از دیگران تفکیک کند؟ محققان بهتازگی فریمورک «UniSE» را معرفی کردهاند که با استفاده از مدلهای زبانی خودبازگشتدهنده (Decoder-only LM)، استانداردهای جدیدی در زمینه بهبود صوت (Speech Enhancement) ایجاد میکند. 🎙️
نکات کلیدی این دستاورد:
✅ مدل یکپارچه برای بازسازی صدا، استخراج گوینده و جداسازی منابع صوتی.
✅ استفاده از یادگیری تقویتی (Reinforcement Learning) برای ارتقای کیفیت خروجی.
✅ عملکرد رقابتی در برابر مدلهای تخصصی قبلی.
این پیشرفت نشان میدهد که مدلهای زبانی فراتر از متن، در پردازش سیگنالهای صوتی نیز پتانسیلهای خیرهکنندهای دارند. برای دسترسی به کد و دمو میتوانید به گیتهاب پروژه سر بزنید.
منبع: arXiv AI



