⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

🚀 جهش بزرگ در آموزش مدل‌های چندزبانه با داده‌های سنتتیک!

محققان در پروژه جدید MultiSynt/MT قدم بزرگی برای شکستن سد زبان در هوش مصنوعی برداشته‌اند. این پروژه یک دیتاسِت عظیم شامل ۴.۸ تریلیون توکن ترجمه شده به ۳۶ زبان اروپایی منتشر کرده است.

نکته هیجان‌انگیز اینجاست که مدل‌های آموزش‌دیده با این داده‌ها، با مصرف ۷۲ درصد توکن کمتر، به همان قدرت مدل‌های فعلی رسیده‌اند! این یعنی راهکاری فوق‌العاده برای تقویت زبان‌های با منابع محدود که می‌تواند سرعت پیشرفت LLMها را در کشورهای غیر انگلیسی‌زبان چندین برابر کند.

این منبع اکنون به صورت عمومی در دسترس است تا مسیر آموزش مدل‌های جهانی هموارتر شود. 🌐✨

منبع: arXiv NLP

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *