ToolOrchestra: Повышение интеллекта за счет эффективной оркестровки моделей и инструментов
Хунцзинь Су, Шичжэ Дяо, Симин Лу, Минцзе Лю, Цзячэн Сюй, Синь Дун, Юнган Фу, Питер Белчак, Ханьжун Е, Хунсю Инь, И Дун, Эвелина Бахтурина, Тао Ю, Ецзинь Чой, Ян Каутц, Павло Молчанов
Большие языковые модели являются мощными универсалами, однако решение глубоких и сложных задач, таких как Последний экзамен человечества (HLE), остается как концептуально сложной, так и вычислительно затратной задачей. Мы показываем, что небольшие оркестраторы, управляющие другими моделями и различными инструментами, могут как расширить верхний предел интеллекта, так и повысить эффективность решения сложных задач, связанных с агентным управлением. Мы представляем ToolOrchestra, метод обучения небольших оркестраторов, которые координируют интеллектуальные инструменты. ToolOrchestra явно использует обучение с подкреплением с учетом результатов, эффективности и предпочтений пользователя. Используя ToolOrchestra, мы создали Orchestrator, 8-битную модель, которая обеспечивает более высокую точность при меньших затратах, чем предыдущие агенты использования инструментов, и при этом соответствует предпочтениям пользователя относительно того, какие инструменты следует использовать для данного запроса. На HLE Orchestrator достигает показателя 37,1%, превосходя GPT-5 (35,1%) и будучи в 2,5 раза эффективнее. На tau2-Bench и FRAMES Orchestrator значительно превосходит GPT-5, используя при этом всего около 30% затрат. Обширный анализ показывает, что Orchestrator обеспечивает наилучший компромисс между производительностью и стоимостью по нескольким метрикам и надежно обобщается на ранее не встречавшиеся инструменты. Эти результаты демонстрируют, что объединение различных инструментов с помощью облегченной модели оркестровки является как более эффективным, так и более действенным, чем существующие методы, открывая путь для практичных и масштабируемых систем логического мышления, дополненных инструментами.
https://arxiv.org/abs/2511.21689
Информация по комментариям в разработке