🧠 پیشرفت جدید در یادگیری تقویتی آفلاین (Offline RL)؛ ساختار مهم‌تر از میزان بدبینی!

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

محققان در مقاله‌ای جدید نشان دادند که در یادگیری تقویتی، برخلاف تصور رایج، همیشه «بدبینی زیاد» (Pessimism) مانع تعمیم‌دهی بهتر نیست.

نکته کلیدی اینجاست: به جای تمرکز صرف بر میزان بدبینی، باید روی ساختار آن تمرکز کرد. اگر ساختارِ بدبینانه با تقارن‌های مسئله همخوانی داشته باشد، مدل بسیار بهتر عمل می‌کند. این تحقیق همچنین پیشنهاد می‌کند که استفاده از «افزایش داده» (Data Augmentation) در مرحله استخراج سیاست (Policy Extraction) بسیار موثرتر از روش‌های سنتی است.

این یافته‌ها راهگشای آموزش مدل‌های هوش مصنوعی دقیق‌تر و بهینه‌تر در محیط‌هایی است که داده‌های محدودی دارند.

منبع: arXiv AI