دنیای هوش مصنوعی به سمت دستیارهای واقعاً «چندوجهی» (Omni-modal) حرکت میکند. محققان بهتازگی بنچمارک جدیدی به نام OmniGAIA را معرفی کردهاند که برای ارزیابی ایجنتها در ترکیب همزمان بینایی، صوت و زبان طراحی شده است.
در کنار این بنچمارک، مدل OmniAtlas نیز معرفی شده که به عنوان یک ایجنت پایه، با استفاده از استراتژیهای پیشرفته استدلال و ابزارهای متنوع، میتواند وظایف پیچیده و دنیای واقعی را بسیار بهتر از مدلهای قبلی انجام دهد. این یعنی فاصله گرفتن از مدلهای صرفاً متنی یا تصویری و حرکت به سمت دستیارهایی که واقعاً محیط اطرافشان را درک میکنند! 🧠✨
منبع: arXiv AI



