Скачать или смотреть QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

Скачать QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

Информация по загрузке:

Cкачать музыку QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

QwenLong-L1.5: Методика пост-обучения для рассуждений в длинном контексте и управления памятью

QwenLong-L1.5 представлен как новая модель, улучшающая возможности рассуждения в длинном контексте за счет систематических инноваций после обучения. Он использует сложный конвейер синтеза данных для длинного контекста, чтобы генерировать сложные многошаговые задачи рассуждения путем деконструкции документов и программного составления вопросов. Для обеспечения стабильного обучения на постепенно увеличивающихся последовательностях модель применяет стабилизированное обучение с подкреплением (RL), включающее сбалансированную по задачам выборку, оценку преимуществ для конкретных задач и алгоритм оптимизации политики с адаптивным управлением энтропией (AEPO). Для сверхдлинных контекстов, превышающих типичные пределы окна (например, 4M токенов), QwenLong-L1.5 интегрирует архитектуру с расширенной памятью, использующую многостадийное RL-обучение слиянием, сочетающее однопроходное рассуждение с итеративной обработкой на основе памяти. Построенный на Qwen3-30B-A3B-Thinking, QwenLong-L1.5 достигает производительности, сравнимой с моделями, такими как GPT-5 и Gemini-2.5-Pro, в задачах рассуждения в длинном контексте. Он заметно превосходит свою базовую модель в среднем на 9,90 балла и демонстрирует прирост в 9,48 балла в сверхдлинных задачах благодаря своей агентской структуре с памятью. Эти достижения также приводят к улучшению производительности в общих областях, таких как научные рассуждения, использование инструментов памяти и расширенные диалоги.
#QwenLongL1_5 #РассужденияВДлинномКонтексте #БММ #ПослеОбучения #УправлениеПамятью #ОбучениеСПодкреплением #ИИ #ОбработкаЕстественногоЯзыка

документ - https://modelscope.cn/papers/2512.12967
подписаться - https://t.me/arxivpaperu
отправить донаты:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM

Комментарии

Информация по комментариям в разработке