محققان در پژوهشی تازه با عنوان «Transformer as a Polar State Estimator» به تحلیل عمیقی از هسته ترنسفورمرها پرداختهاند. این مطالعه نشان میدهد که اجزای اصلی ترنسفورمر، یعنی مکانیزمهای توجه (Attention)، اتصالات باقیمانده (Residual Connections) و نرمالسازی، همگی از یک «مسئله تخمین حالت هندسی» نشأت میگیرند.
به عبارت سادهتر، معماری ترنسفورمرها محصول انتخابهای تصادفی نیست، بلکه پاسخی به یک مسئله ریاضی دقیق در فضاهای قطبی است. این تیم همچنین «Polar Transformer» را معرفی کردهاند که با در نظر گرفتن اصلاحات هندسی دقیقتر، عملکردی حتی وفادارانهتر از ترنسفورمرهای استاندارد دارد. این مقاله دیدگاه جدیدی برای درک چراییِ موفقیت مدلهای زبانی امروزی ارائه میدهد.
منبع: arXiv AI
