🔍 چالش‌های استفاده از هوش مصنوعی به‌عنوان داور (LLM-as-a-Judge) در زبان‌های کم‌منابع

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

آیا هوش مصنوعی واقعاً می‌تواند داور عادلی برای ارزیابی متن‌ها در تمام زبان‌ها باشد؟ محققان در مقاله جدیدی به بررسی این موضوع پرداخته‌اند که چرا استفاده از مدل‌های زبانی بزرگ به عنوان «داور» در زبان‌های غیرانگلیسی و به ویژه زبان‌های با منابع کم (Low-Resource)، همچنان چالش‌برانگیز است.

نکات کلیدی این پژوهش:
📉 نتایج بررسی ۶۵۰ مقاله علمی نشان می‌دهد که تنها بخش کوچکی (۳۳ مقاله) به درستی چالش‌های زبانی را در نظر گرفته‌اند.
⚠️ اعتماد بیش از حد به خروجی‌های مدل‌ها در زبان‌های غیر انگلیسی، می‌تواند منجر به نتایج غیردقیق و نادرست شود.
💡 پیشنهاداتی برای بهبود روش‌های ارزیابی ارائه شده تا محققان بتوانند با دقت بیشتری از مدل‌ها در پروژه‌های چندزبانه استفاده کنند.

این مقاله زنگ خطری است برای جامعه هوش مصنوعی که نباید بدون نظارت دقیق، به داوریِ خودکارِ مدل‌های زبانی اعتماد کنند!

منبع: arXiv AI