محققان در مقاله جدیدی به بررسی چالش مقیاسپذیری «دادههای مصنوعی» (Synthetic Data) پرداختهاند. در این تحقیق، دو روش اصلی بررسی شده است: «گسترش منبع» (Source Expansion) و «سنتز با منبع ثابت» (FSS).
نکته کلیدی اینجاست که در مقیاسهای بزرگ، اضافه کردن سوالات اولیه (Source Expansion) نتیجه بهتری نسبت به افزایش تعداد پاسخها برای سوالات محدود میدهد. این تحقیق به ما کمک میکند بفهمیم برای آموزش مدلهای قدرتمند، چطور منابع دادهای خود را بهینه کنیم. 🤖💡
منبع: arXiv NLP



