محققان در مقالهای جدید با معرفی چارچوب «LGMT»، به چالش بزرگی در مدلهای زبانی بزرگ (LLM) پرداختهاند: «عدم اطمینان از استدلال منطقی».
مشکل اینجاست که بنچمارکهای فعلی فقط سوالات ایستا را بررسی میکنند، اما LGMT با استفاده از منطق مرتبه اول (FOL)، مدلها را در برابر تغییرات معناییِ معادل تست میکند تا بفهمد آیا هوش مصنوعی واقعاً منطق را درک میکند یا فقط حفظ کرده است!
نتایج این تحقیق نشان داد که مدلهای پیشرو در برابر تغییرات جزئیِ منطقی به شدت آسیبپذیرند. این یعنی برای رسیدن به هوش مصنوعیِ واقعاً قابل اعتماد، باید فراتر از بنچمارکهای معمول برویم.
منبع: arXiv AI



