محققان در مطالعهای جدید، روشی نوآورانه برای پیشبینی دقیق مدتزمان و لحن (Pitch) کلمات در زبان ماندارین ارائه کردهاند. در این پژوهش، از «جاسازیهای متنی» (Contextualized Embeddings) استفاده شده تا مدل بتواند نه تنها ساختار کلمات، بلکه ویژگیهای صوتی آنها در گفتار محاوره را نیز پیشبینی کند. نتایج این تحقیق نشان میدهد که مدلهای زبانی فراتر از تحلیل متن، پتانسیل بالایی در درک ظرافتهای صوتی و بازسازی دقیق الگوهای گفتاری دارند که میتواند جهشی بزرگ برای سیستمهای تبدیل متن به گفتار (TTS) باشد.
منبع: arXiv NLP



