- N +

摩尔线程新方法优化AI交互:显存节省最多82%

摩尔线程新方法优化AI交互:显存节省最多82%原标题:摩尔线程新方法优化AI交互:显存节省最多82%

导读:

直播吧月日讯利物浦在本轮英超击败莱斯特城索博斯洛伊登场数据统计显示索博斯洛伊也达成了利物浦生涯英超场里程碑期间贡献球助攻摩尔线程科研团队近日发布了一项新的研究成果以轮次块稀疏性...

直播吧12月27日讯利物浦在本轮英超3-1击败莱斯特城,索博斯洛伊登场。数据统计显示,索博斯洛伊也达成了利物浦生涯英超50场里程碑,期间贡献5球5助攻。

摩尔线程科研团队近日发布了一项新的研究成果《 :以轮次块稀疏性开辟新范式》,使得端到端延迟低于现在主流的Flash Attention,kv-cache显存占用节省最多82%。

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题 任务中的广泛应用。

长时间的交互暴露出两大显著问题:

上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的;

尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的,导致推理批处理规模受限,同时GPU利用率低下。

为此,摩尔线程提出了Round Attention,以 这些问题。

摩尔线程提出以轮次为分析单元研究Attention规律:

Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。

摩尔线程提出了Round Attention推理流水线;

摩尔线程新方法优化AI交互:显存节省最多82%

基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与 tention计算,减少 tention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。

这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。

摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。

显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。

返回列表
上一篇:
下一篇: