强化学习(RL)对大模子复杂推贤慧商擢升关系节作用,但其复杂的猜测打算经由对查验和部署也带来了浩大挑战。近日,字节跨越豆包大模子团队与香港大学合资建议 HybridFlow。这是一个无邪高效的 RL/RLHF 框架,可显贵擢升查验婉曲量,裁减建树和惊奇复杂度。实验完毕标明,HybridFlow 在各式模子限度和 RL 算法下,查验婉曲量比拟其他框架擢升了 1.5 倍至 20 倍。
在大模子后查验(Post-Training)阶段引入 RL 按序,已成为擢升模子质料和对皆东谈主类偏好的蹙迫技术。但是,跟着模子限度的抑遏扩大,RL 算法在大模子查验中靠近着无邪性和性能的双重挑战。传统的 RL/RLHF 系统在无邪性和效果方面存在不及,难以适应抑遏涌现的新算法需求,无法充分施展大模子后劲。
小77论坛最新据豆包大模子团队先容,HybridFlow 聘任混杂编程模子,将单死亡器的无邪性与多死亡器的高效性相结合,解耦了死亡流和猜测打算流。基于 Ray 的散布式编程、动态猜测打算图、异构疏浚智商,通过封装单模子的散布式猜测打算、协调模子间的数据切分,以及相沿异步 RL 死亡流,HybridFlow 粗略高效地终了和实践各式 RL 算法,复用猜测打算模块和相沿不同的模子部署容貌,大大擢升了系统的无邪性和建树效果。
实验完毕炫夸,无论 PPO 、ReMax 还是 Safe-RLHF 算法,HybridFlow 在所有模子限度下平均查验婉曲量均大幅当先于其他框架,擢升幅度在 1.5 倍至 20 倍之间。跟着 GPU 集群限度扩大,HybridFlow 婉曲量也赢得难懂膨大。这收货于其无邪的模子部署,充分欺骗硬件资源,终了高效并行猜测打算。同期,HybridFlow 粗略相沿多种散布式并行框架(Megatron-LM 、FSDP 、vLLM ),餍足不同模子限度的猜测打算需求。
跟着 o1 模子出身,大模子 Reasoning 智商和 RL 愈发受到业界柔软。豆包大模子团队暗示,将连续围绕关系场景进行探索和实验。现在,HybridFlow 盘问论文已入选学术顶会 EuroSys 2025,代码也已对外开源。
HybridFlow开源统一:https://github.com/volcengine/veRL萝莉 后入