تولید متن به گفتار (TTS) برای زبانهایی که پیچیدگیهای آوانگاری دارند، همیشه یک چالش بوده است. محققان به تازگی سیستم متنباز Phonikud را معرفی کردهاند که به طور خاص برای رفع مشکلات زیرساختی زبان عبری طراحی شده است.
این پروژه با ارائه یک سیستم مبدل نویسه به واج (G2P)، پایگاه داده جدید ILSpeech و مدلهای بهبودیافته برای تولید آوا، توانسته کیفیت سنتز گفتار را در مدلهای کوچک و محلی به سطح مدلهای بزرگ و تجاری برساند. این دستاورد گام مهمی در دقیقتر شدن مدلهای هوش مصنوعی برای زبانهایی با ساختار نوشتاری خاص است.
🔗 لینک پروژه: https://phonikud.github.io
منبع: arXiv NLP



