محققان مدل جدیدی به نام SPARCLE معرفی کردهاند که تحولی در دنیای تبدیل متن به گفتار (TTS) ایجاد میکند.
مشکل اصلی مدلهای فعلی این بود که در شرایط دادههای محدود، نمیتوانستند جزئیات صوتی مربوط به لحن و ویژگیهای خاصِ گوینده را به خوبی درک کنند. اما SPARCLE با استفاده از «نمایشهای گرافیمیِ آگاه از گوینده» و آموزش تقابلی (Contrastive Objective)، یاد میگیرد که متن را دقیقتر به صدا تبدیل کند.
نتیجه این پیشرفت؟ کاهش چشمگیر خطای کلمات در شرایطی که دادههای آموزشی بسیار کم است. این مدل جایگزین قدرتمندی برای سیستمهای قدیمی G2P خواهد بود و کیفیت صداهای تولید شده توسط هوش مصنوعی را به شکلی باورنکردنی ارتقا میدهد. ✨
منبع: arXiv AI



