DeepSeek之后，国产芯片立功，AI训练成本再“打八折”

原标题：DeepSeek之后，国产芯片立功，AI训练成本再“打八折”

导读：

直播吧月日讯堪萨斯城酋长当家球星独行侠球迷马霍姆斯今天在媒体采访中再次谈到东契奇被交易一事马霍姆斯说道卢卡是队史上一名非常出色的球员我知道这伤了我作为独行侠球迷的心但我为拥有浓...

直播吧2月4日讯NFL堪萨斯城酋长当家球星、独行侠球迷马霍姆斯今天在媒体采访中，再次谈到东契奇被交易一事。马霍姆斯说道：“卢卡是队史上一名非常出色的球员。我知道这伤了我作为独行侠球迷的心，但我为拥有浓眉的未来感到兴奋。

3月24日晚，DeepSeek-V3发布小版本升级，实测表现远超预期。几乎与此另一款国产大模型蚂蚁百灵凭借国产芯片训练，实现同等性能突破，还将训练成本再降20%，同样引发市场关注。

根据团队公布的论文显示，蚂蚁推出的百灵大模型分为两个版本——参数规模为168亿（参数27.5亿）的百灵Lite和参数规模为2900亿（参数288亿）的百灵Plus。通过实验表明，使用国产较低性能的GPU芯片，也能完成3000亿参数的MoE（混合专家）的训练，而且性能与英伟达芯片训练的同等参数模型相当。

记者在论文中看到，MoE大模型的训练通常依赖于英伟达H100或H800等高性能GPU芯片，但过高的成本以及出口管制等问题，也限制了大模型的普及应用。百灵团队通过低性能GPU来训练模型，通过模型训练环境、优化策略、基础设施、训练过程、评估结果和推理等层面进行优化，用低成本来复现高性能模型。

跨异构计算与分布式集群是百灵大模型的训练创新之举。据蚂蚁相关人士介绍，跨异构计算与分布式集群主要基座芯片的混合性能问题，不同品牌和型号的芯片的结构和性能存在差异，协同处理数据需要通过分布式和跨异构计算来弥补芯片差异，这样能更好地降低芯片成本，以免被同一种芯片产能限制。

值得一提的是，百灵团队通过5种不同芯片配置的硬件来训练百灵Plus，其中高性能硬件配置训练1万亿token（词元）的预训练成本约为635万元，而百灵调优过的低规格硬件的训练成本将降至508万元左右，降低约近20%的成本，而性能保持与通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Ch 相当。不过相关人士也透露，这种结果是实验环境中取得的，真实使用感受的仍有待验证。