محققان در یک پژوهش جدید، از روش «یادگیری تقویتی مبتنی بر سیاست» (Policy-Based RL) برای آموزش یک ایجنت هوش مصنوعی استفاده کردهاند تا بتواند در بازی کلاسیک «بیست سوالی» استاد شود.
نکته جالب اینجاست که این مدل برخلاف روشهای سنتی، نیازی به پایگاه دانش عظیم از اشیاء ندارد و حتی با وجود پاسخهای غلط یا نویزدار از سمت کاربر، همچنان میتواند با استراتژی دقیق به جواب درست برسد. این یعنی مدلها یاد میگیرند چطور با تعامل مستقیم و بهینهسازی سیاستهای پرسشگری، هوشمندتر از قبل عمل کنند. 🎯
این پیشرفتها در درک زبان و استدلال، گامی رو به جلو برای طراحی دستیارهای صوتی و چتباتهای تحلیلگر است.
منبع: arXiv AI



