🎙️ SPARCLE: انقلابی در سنتز گفتار با هوش مصنوعی

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان مدل جدیدی به نام SPARCLE معرفی کرده‌اند که تحولی در دنیای تبدیل متن به گفتار (TTS) ایجاد می‌کند.

مشکل اصلی مدل‌های فعلی این بود که در شرایط داده‌های محدود، نمی‌توانستند جزئیات صوتی مربوط به لحن و ویژگی‌های خاصِ گوینده را به خوبی درک کنند. اما SPARCLE با استفاده از «نمایش‌های گرافیمیِ آگاه از گوینده» و آموزش تقابلی (Contrastive Objective)، یاد می‌گیرد که متن را دقیق‌تر به صدا تبدیل کند.

نتیجه این پیشرفت؟ کاهش چشمگیر خطای کلمات در شرایطی که داده‌های آموزشی بسیار کم است. این مدل جایگزین قدرتمندی برای سیستم‌های قدیمی G2P خواهد بود و کیفیت صداهای تولید شده توسط هوش مصنوعی را به شکلی باورنکردنی ارتقا می‌دهد. ✨

منبع: arXiv AI