🔍 معیاری جدید برای تست دقیق‌تر کدهای تولید شده توسط هوش مصنوعی!

⚠️ هشدار به محققان: چرا دقت مدل‌های شناسایی پهپاد گاهی «واقعی» نیست؟

آیا تا به حال به این فکر کرده‌اید که چگونه می‌توان کیفیت کدهایی که توسط مدل‌های زبانی (LLM) نوشته می‌شوند را تضمین کرد؟ محققان در پژوهش جدیدی مفهومی به نام «Prompt Coverage Adequacy» را معرفی کرده‌اند که مانند ابزارهای سنتی سنجش پوشش کد (Code Coverage) عمل می‌کند، اما مخصوص دنیای هوش مصنوعی است.

این روش با تحلیل مکانیسم‌های توجه (Attention) در مدل‌های زبانی، بررسی می‌کند که آیا تست‌های نوشته شده به درستی تمام جزئیات دستورات (Prompt) را پوشش داده‌اند یا خیر. نتایج نشان می‌دهد که این متد می‌تواند ۳۰ درصد بیشتر از روش‌های قدیمی، باگ‌ها و خطاهای کدنویسی را شناسایی کند. قدمی بزرگ برای توسعه نرم‌افزارهای امن‌تر توسط هوش مصنوعی! 🚀💻

منبع: arXiv AI