محققان در مقاله جدیدی، روشی نوآورانه به نام «JSTIP» معرفی کردهاند که فاصله بین متن و گفتار را در مدلهای زبانی بزرگ (LLM) به حداقل میرساند. این تکنیک با ادغام کلمه-به-کلمه و بخش-به-بخش گفتار و متن، باعث شده دقت تشخیص موجودیتها (Entity Recognition) در سیستمهای ASR بهطور قابلتوجهی افزایش یابد.
این دستاورد نه تنها در تشخیص گفتارِ دقیقتر به کمک متخصصان میآید، بلکه نیاز به دادههای مصنوعی پرهزینه را برای آموزش مدلها کاهش داده و عملکرد مدلها در حوزههای تخصصی مثل پزشکی را در سطح سیستمهای متنبازِ قدرتمند قرار میدهد. گامی بزرگ برای هوش مصنوعی که بهتر میشنود و دقیقتر میفهمد! 🤖✨
منبع: arXiv NLP



