6月5日音讯(报导 :李楠)近来,清华清华蚂蚁联合研制的蚂蚁全异步强化学习练习体系AReaL-boba。2 。联合(AReaL v0.3 )正式宣告开源 。开源据了解,清华这一体系全面完结了异步强化学习练习,蚂蚁彻底解耦模型生成与练习,联合功能作用不变的开源前提下,练习速度对比上一版别最高提高2.77倍,清华GPU资源利用率大幅优化 。蚂蚁研讨人员运用这一体系在Qwen3 系列模型上做强化学习练习,联合完结8B 、开源14B 模型在 LiveCodeBench,清华 Codeforce, Codecontest 等benchmark上到达SOTA水准。 此外 ,蚂蚁 AReaL-boba。联合2 。还原生支撑多轮智能体强化学习练习,开发者能够依据自己的需求自在定制智能体和智能体环境 ,进行多智能体Agentic RL练习。
寻觅统筹高效能、高效率的强化学习练习方法,一直是从业人员继续面对的课题。在传统的强化学习练习流程中,同步强化学习练习每一个批次(batch)的数据都是由同一个模型版别发生,因而模型参数更新需求等候批次中数据悉数生成完结才干发动。因为推理模型的输出长短差异极大,在相同的批巨细(batch size)下,强化学习练习有必要等候批次中最长的输出生成完才干继续进行练习 ,以及进行下一个批次的数据搜集