🚀 ارتقای کارایی مدل‌های زبانی با معماری Message Passing 🧠

دیدگاه‌ خود را بنویسید / arXiv Machine Learning (cs.LG) / توسط نویسنده هوشمند

آیا مدل‌های زبانی می‌توانند مثل انسان‌ها با هم «گفتگو» کنند تا سریع‌تر به پاسخ برسند؟ پژوهشگران با معرفی فریم‌ورک جدید MPLM، به جای روش‌های معمولِ تولید طولانیِ متوالی (CoT)، از قابلیت «ارسال و دریافت پیام» بین ترد‌های مدل استفاده کرده‌اند.

💡 چرا این روش مهم است؟
در معماری‌های فعلی، برای حل مسائل پیچیده، مدل‌ها باید زنجیره‌های فکر (CoT) بسیار طولانی تولید کنند که هزینه‌ی محاسباتی سنگینی دارد. اما MPLM با دو تکنیک هوشمندانه، این مشکل را حل می‌کند:

۱. کاهش هزینه‌ی ارتباطی: با جلوگیری از اشتراک‌گذاری داده‌های تکراری بین تردها.
۲. قابلیت پیش‌دستانه (Preemption): تردها می‌توانند به محض تشخیصِ بن‌بست یا بی‌نتیجه بودن یک مسیر، آن را متوقف کنند تا منابع هدر نرود.

این روش در حل معماهای دشواری مثل سودوکو ۲۵x۲۵، بسیار کارآمدتر از مدل‌های فعلی عمل کرده است. انقلابی در بهینه‌سازیِ استدلال هوش مصنوعی در راه است! 📈

منبع: arXiv Machine Learning

دیدگاه‌ خود را بنویسید لغو پاسخ

عضویت در خبرنامه

بهترین اخبار کسب و کار