محققان در پژوهش جدیدی، نگاهی هندسی به نحوه «کنترل احساسات» در مدلهای تولید گفتار داشتهاند. این مطالعه به بررسی تفاوتهای عملکردی بین مدلهای زبانی گفتار (SLM) و مدلهای منطبقسازی جریان شرطی (CFM) میپردازد.
نتایج این تحقیق نشان میدهد که:
✅ مدلهای SLM در بازنمایی احساسات و جداسازی هویت گوینده از لحن، عملکرد دقیقتر و بهینهتری دارند.
❌ در مقابل، مدلهای CFM در تعمیمدهی بین گویندههای مختلف ضعف نشان میدهند.
این یافتهها نقشه راه مفیدی برای توسعهدهندگان سیستمهای صوتی هوشمند است تا بتوانند احساسات واقعیتر و دقیقتری را در خروجیهای خود ایجاد کنند. 🤖✨
منبع: arXiv Machine Learning