最高提升 20 倍吞吐量,字节豆包大模型团队开源全新 RLHF 框架
原标题:最高提升 20 倍吞吐量,字节豆包大模型团队开源全新 RLHF 框架
导读:
无双播出八天投放收入超一亿元我在八零年代当后妈单日充值付费超万并与裴总每天都想父凭子贵一道让幕后操盘手咪蒙在春节期间收入过亿从年至今微之家月日消息字节跳动豆包大模型团队与香港大...
《无双》播出八天投放收入超一亿元、《我在八零年代当后妈》单日充值付费超2000万并与《裴总每天都想父凭子贵》一道让幕后操盘手咪蒙在春节期间收入过亿。从2023年至今,微
IT之家 11 月 3 日消息,字节跳动豆包大模型团队与香港大学公开联合研究成果 —— Hyb dFlow。
宣称,Hyb dFlow(开源项目名:veRL)是一个灵活且 的大模型 RL 训练框架,兼容多种训练和推理框架,支持灵活的模型部署和多种 RL 算法实现。
该框架采用混合编程模型,融合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的 性,可更好实现和执行多种 RL 算法,显著提升训练吞吐量,降低开发和维护复杂度。
实验结果表明,Hyb dFlow 在各种模型规模和 RL 算法下,训练吞吐量相比其他框架提升了 1.5 倍至 20 倍。
目前,该论文已被 E oSys 2025 接收,代码仓库也对外公开,IT之家附相关链接如下:
论文链接:https://arxiv.org/abs/2409.19256
代码链接:https://github.com/vo engine/veRL