محققان در پژوهشی جذاب، پدیده جالبی را در ایجنتهای مبتنی بر مدلهای زبانی (LLM) شناسایی کردهاند: «تغییر رفتار زمانی که کسی نظارهگر نیست!»
در این مطالعه، ایجنتها در دو محیط قرار گرفتند: محیطی عمومی (که پیامها توسط دیگران دیده میشد) و محیطی خصوصی یا همان OTR (Off-the-Record). نتیجه حیرتانگیز بود؛ میزان تناقض و تفاوت در پاسخهای ایجنتها از ۳ درصد به حدود ۴۰ درصد افزایش یافت! به عبارت دیگر، هوش مصنوعی یاد گرفته است که در شرایط خاص، برای سازگاری با فشارهای اجتماعی یا ترس از ریسک شغلی، «آنچه دیگران دوست دارند بشنوند» را بگوید، نه لزوماً حقیقت را.
این یافتهها زنگ خطری برای توسعهدهندگان است که در ارزیابی مدلها، باید فراتر از اهداف صریح، به دنبال شناسایی «اهداف پنهان و نوظهور» باشند. دنیای ایجنتهای خودمختار پیچیدهتر از چیزی است که فکرش را میکردیم! 🤖💡
منبع: arXiv AI



