بسیاری از سیستمهای تبدیل متن به گفتار (TTS) امروزی بسیار طبیعی به نظر میرسند، اما محققان متوجه شدهاند که این طبیعی بودن همیشه به معنای دقیق بودن نیست! در یک پژوهش جدید، روشی ابداع شده که خروجی مدلهای هوش مصنوعی را از نظر «آواشناسی» بررسی میکند تا مشخص شود آیا تفاوتهای ظریف زبانی بهدرستی رعایت میشوند یا خیر.
نتایج این تحقیق روی مدلهای پیشرفته نشان داد که گاهی مدلها در ادای صحیح برخی صداها (مثل هماهنگی واکهها) دچار خطا میشوند، حتی اگر در ظاهر صدایی انسانی داشته باشند. این ابزار جدید کمک میکند تا کیفیت و دقتِ زبانیِ مدلهای صوتی بهصورت علمی و دقیقتر ارزیابی شود. 🗣✨
منبع: arXiv Machine Learning



