推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
原标题:推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
导读:
在过去很长一段时间内丰田都是混动的代名词但随着近几年自主品牌的崛起尤其是比亚迪长城吉利一众混动技术的出现丰田在混动领域的存在感被大大削弱了那这个时候你肯定会好奇了是不是我们自主...
在过去很长一段时间内,丰田都是混动的代名词。但随着近几年自主品牌的崛起,尤其是比亚迪DM-i、长城Hi4、吉利EMP一众混动技术的出现,丰田在混动领域的存在感,被大大削弱了。那这个时候,你肯定会好奇了,是不是我们自主品牌的混动已经彻底超越丰田了?如果我想买一台混动车型,是否还有理由再看一眼丰田呢?先看看混动原...
豆包大模型团队 投稿
量子位 | 公众号 QbitAI
字节出了个全新架构,把推理成本给狠狠地打了下去!
有多狠?
速度相比MoE架构提升2-6倍,推理成本最高可降低83%。
这个全新的稀疏模型架构叫做UltraMem,有效地 了目前主流的MoE架构和PKM架构所存在的局限性。
例如MoE在做推理时,较小的b ch size会 全部专家,导致访存急剧上升,推理延迟增加;而PKM虽然减少了开销,但效果较差且扩展能力有限。
实验结果表明,训练规模达2000 万value的UltraMem模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模value或expert开辟了新路径。
这项研究目前已经被ICLR 2025接收。
那么UltraMem架构具体是如何做到这点的呢?我们继续往下看。