- N +

中国首个大模型,pick了CPU

中国首个大模型,pick了CPU原标题:中国首个大模型,pick了CPU

导读:

再一次面对舆论的聚光灯俞敏洪回应所有质疑月日在东方甄选控股有限公司东方甄选的股东电话会议上新东方创始人东方甄选俞敏洪用一个多小时时间回应了外界关注的...

再一次,面对舆论的聚光灯,俞敏洪回应所有质疑。7月26日,在东方甄选控股有限公司(东方甄选,01797.HK)的股东电话会议上,新东方创始人、东方甄选CEO俞敏洪用一个多小时时间,回应了外界关注的几大焦点问题。此前董宇辉离职一事迅速刷屏全网:7月25日,东方甄选发布公告称,董宇辉已决定不再担任...

本文来自于微信公众号量子位 | 公众号 QbitAI,作者:金磊 梦晨,授权 转载发布。

当电信用上了大模型,会是一种什么体验?

以前上若是出了问题,运维人员需得是先靠着经验反复排查,找到了“病根”再“对症下药”。

而现在有了大模型,这事儿的“打开方式”就变得截然不同了。

上若是出现了问题,大模型已经学会自己去找“病根”了,然后会把它的判断结果呈现到运维人员的面前。

若是结果跟运维人员的诊断一致,那么OK,“啪的一下”,问题就可以快速得到 。

即使诊断结果有所偏差或者描述不够详细,运维人员现在也只需做一个动作——问。

大模型不仅会像一位领域专家一样,凭借专业且丰厚的知识,对人类提出的问题做详尽的解答;更重要的是,它还 得快。

业界一般认为文本生成延时小于100毫秒是人类觉得较为舒适的阈值,而这个大模型它的生成速度则是:

首字符时延在1秒以内,生成延时在50毫秒左右。

即使面对再多再复杂的问题,运维人员工作的感觉就好比旁边有一位“高人”在现场指导一样了。

值得一提的是,这个并不只是个现象级产品,而是已经实实在在的做到了“上岗”。

据悉,某电信运营商已经在全国31个省将它铺开应用,日均调用量高达10万次!

也正因如此,就在刚刚落幕的第二届“华彩杯”算力大赛·智能计算专题赛中,它还拿下了一等奖的好成绩,是获得了 认证的那种。

方案白皮书《中国电信携英特尔积极探索基于至强®CPU 的大模型推理算力方案》也在中国通信标准化协会C A TC610、欧洲电信标准化协会ENI产业标准组主办的云网运营自智与大模型技术研讨会上正式发布。

那么我们就来进一步深入了解一下这个大模型。

就目前“上岗”的结果来看,该电信运营商的各级运维人员均已接入大模型。

正如我们刚才提到的,他们运维的方式已经产生了实质性的改变——

专业知识问答、信息筛选、信息等等,统统交给大模型来处理即可。

在规划方面,大模型也在发挥着作用。

它的推理输出结果已经涵盖了建设、维护、优化和运营决策等场景。

基层运维人员通过这些结果,就可以实现精准理解与分析规则、自动规则核查;大模型提供的专业领域专业知识,还可以帮助电信行业方案分析与生成。

或许有小伙伴就要问了,这和市面上的众多大模型问答产品又有什么区别呢?

重点就在于够垂直。

大模型作为行业的“专家”,它所提供的 是可以深入理解运维人员的用户需求和意图的,因此生成的 和知识更精准、更个性化。

生成内容是够专业了,接下来我们就要聊聊速度的问题。

中国首个网络大模型,pick了CPU

众多的运维场景都属于边缘端,也正因如此,就会对数据在边侧的即时响应速度提出了较高的要求。

毕竟若是等大模型生成 还要好几分钟,那么对于运营商故障修复来说就成了臃肿的包袱。

对此,该电信运营商的“解法”是:

使用满足OTII标准(边缘硬件产业的新标杆)的边缘服务器。

边缘服务器的部署环境要求要比数据中心高,有时甚至需要部署在一些极端的恶劣情况下。

这意味着边缘服务器需要在功耗、体积、耐用性、 TCO 等方面符合特定的要求,能够在极端高低温、灰尘、腐蚀、震动冲击、电磁干扰下保持设备的正常运行。

而该电信运营商所采用的OTII服务器部署在边缘场景下就具备了相对的优势,例如针对环境适应的问题,它可以在高温55°以下工作。

除此之外,它还支持IP65,符合EMC ClassB设计,支持9级地震烈度,机身小巧,有1U/2U/4U等多种型号,支持挂墙安装等等。

服务器还支持前维护,适应边缘的运维需求,该电信运营商大量的边缘机房无需任何改造,就可以部署基于OTII标准的标准服务器。

也正因为在如此,便让数据的及时交互和响应有了强有力的安全保障。

其生成速度也正如刚才所述,已经达到了首字符时延在1秒以内,生成时延在50毫秒左右,可以满足大模型推理的功能和性能需求。

就目前来看,大模型已覆盖“规、建、维、优、营”全生命周期五大类场景,围绕知识问答、辅助、智能体三个维度,已经打造了12个AI。

具体场景和性能表现如下表、图所示:

据悉,该电信运营商大模型已实现问答准确率85%、方案生成可用率90%、故障处置效率提升30%、高危指令稽核效率提升50%的总体目标。

由此可见,大模型已然是一个合格有效且可放心“上岗”的AI了。

而在它能够做到“够快、够准”的背后,该电信运营商还有一个杀手锏——

在背后起关键作用的算力“马达”,某电信运营商pick的是CPU。

从上述””大模型的应用流程可以看到,模型推理是至关重要的一个环节,它直接决定了故障定位、处置方案的生成速度和准确率。

而这恰恰是CPU大显身手的”主场”。

从电信行业本身的特点来说,历来整个系统中就有大量的CPU存量,无需引入全新的异构架构,而是继续采用成熟的CPU方案,对电信行业来说有几大优势:

减少采购环节,降低总拥有成本。

该电信运营商作为全球规模最大的通信运营商之一,其中部署着数以百万计的X86服务器。这些服务器往往还处于使用周期内,完全可以通过软件升级的方式,快速实现大模型的部署与应用。相比重新采购新的硬件设备,这种方式可以大幅降低前期投入,提高投资回报率。

电信行业对系统稳定性要求更高。

电信业务覆盖范围广,涉及社会运行方方面面,从医疗救援到金融交易等等,对连续性要求极高,轻微故障也会直接影响客户体验。现代通信又是全球最复杂的工程系统之一,一处小小的异常都可能引发连锁反应,影响整网运转。而以X86 为代表的英特尔CPU架构安全和稳定性经过几十年的积累和验证,经得起考验。

已建立成熟的运维技术团队。

作为ICT领域的传统企业,该电信运营商拥有一支规模庞大、经验丰富的IT技术团队。这些工程师、运维人员,对英特尔CPU的微架构、指令集、调优工具等都有着深入的理解和掌握。继续采用CPU部署大模型无需太多学习和培训成本,大大降低了新技术的采用门槛。

具体到CPU产品的选型,“”大模型方案使用第五代英特尔®至强®可扩展处理器作为算力核心,来应对 度、高并发的大模型推理需求。

第五代英特尔®至强®可扩展处理器配备了更多的处理器内核数量、更强的单核性能和更大的三级缓存(LLC)容量。尤其是LLC容量的提升,使得大多数模型参数能够直接驻留从而大幅提升推理速度。每路处理器还支持多达8个DDR5-4800内存通道,能够有效缓解高内存需求场景下的带宽瓶颈。

更重要的是,第五代至强®还内置了多个专用于AI加速的引擎。特别是英特尔®AMX(高级矩阵扩展),采用分块矩阵乘法的创新方式,通过Tile矩阵乘法单元(TMUL)对数据实施矩阵运算。并且AMX支持INT8、BF16等低精度数据类型,在保证精度的前提下显著提高每时钟周期的指令数。

软件方面,方案还引入了一系列英特尔AI工具来进一步释放硬件潜力。

英特尔开源的分布式推理优化框架xFastTran ormer(xFT),可基于至强® 的指令集实现张量并行、流水线并行等多种性能优化,并支持 BF16、INT8、INT4等多种数据类型以及多种主流大模型。

这些AI 软件工具实现了对主流AI开发框架的 兼容,使得大模型无需修改代码即可从GPU迁移到CPU,真正实现“一次编写,随处部署”。

得益于CPU的能效优势,采用第五代至强®方案还能显著降低模型运营的能耗成本。数据显示,第五代至强®的开箱即用能耗比较上一代提升高达34%,启用BIOS优化后还可进一步提高。

除了对CPU本身的选择,大模型由于需要部署到生产一线,有时甚至需要在极端恶劣环境部署,对于整个服务器的要求 高。

为了更好地满足业务需求并提升使用体验,该电信运营商选用了符合OTII标准的边缘服务器。

OTII标准由英特尔联合中国通信标准化协会、该电信运营商等企业共同制定,满足电信边缘场景对开放性、可扩展性的要求,涵盖了服务器外形、散热、电源、管理等各方面的规范,在功耗、体积、耐用性等方面符合特定要求,能在极端高低温、灰尘、腐蚀、震动冲击、电磁干扰等情况下保持运行。

由此可见,选择CPU进行大模型推理部署,已被该电信运营商这样的大型企业实际验证。这既是出于技术成熟度与稳定性的考量,更契合了企业客观的IT环境与人才储备。

该电信运营商的实践表明,在时延、吞吐、功耗等关键指标上,CPU不仅可以满足严苛的业务需求,借助软硬件的联合优化,推理成本也大幅下降。

特别是该方案还在2024华彩杯取得好成绩,为大模型在更多场景应用打造了一个标杆。该电信运营商和英特尔的合作模式,也成为一个可以值得借鉴的“范本”。

随着未来技术发展,大模型还会深入走进更多行业,需要在性能、功耗、成本、易用性等多方面实现最佳平衡。

CPU在AI推理加速上仍然大有可为。

返回列表
上一篇:
下一篇: