محققان در پروژه جدید MultiSynt/MT قدم بزرگی برای شکستن سد زبان در هوش مصنوعی برداشتهاند. این پروژه یک دیتاسِت عظیم شامل ۴.۸ تریلیون توکن ترجمه شده به ۳۶ زبان اروپایی منتشر کرده است.
نکته هیجانانگیز اینجاست که مدلهای آموزشدیده با این دادهها، با مصرف ۷۲ درصد توکن کمتر، به همان قدرت مدلهای فعلی رسیدهاند! این یعنی راهکاری فوقالعاده برای تقویت زبانهای با منابع محدود که میتواند سرعت پیشرفت LLMها را در کشورهای غیر انگلیسیزبان چندین برابر کند.
این منبع اکنون به صورت عمومی در دسترس است تا مسیر آموزش مدلهای جهانی هموارتر شود. 🌐✨
منبع: arXiv NLP
