آیا هوش مصنوعی واقعاً میتواند داور عادلی برای ارزیابی متنها در تمام زبانها باشد؟ محققان در مقاله جدیدی به بررسی این موضوع پرداختهاند که چرا استفاده از مدلهای زبانی بزرگ به عنوان «داور» در زبانهای غیرانگلیسی و به ویژه زبانهای با منابع کم (Low-Resource)، همچنان چالشبرانگیز است.
نکات کلیدی این پژوهش:
📉 نتایج بررسی ۶۵۰ مقاله علمی نشان میدهد که تنها بخش کوچکی (۳۳ مقاله) به درستی چالشهای زبانی را در نظر گرفتهاند.
⚠️ اعتماد بیش از حد به خروجیهای مدلها در زبانهای غیر انگلیسی، میتواند منجر به نتایج غیردقیق و نادرست شود.
💡 پیشنهاداتی برای بهبود روشهای ارزیابی ارائه شده تا محققان بتوانند با دقت بیشتری از مدلها در پروژههای چندزبانه استفاده کنند.
این مقاله زنگ خطری است برای جامعه هوش مصنوعی که نباید بدون نظارت دقیق، به داوریِ خودکارِ مدلهای زبانی اعتماد کنند!
منبع: arXiv AI



