- N +

英伟达新 nGPT 架构撬动 AI 未来:训练模型时间可缩短至 1_20

英伟达新 nGPT 架构撬动 AI 未来:训练模型时间可缩短至 1_20原标题:英伟达新 nGPT 架构撬动 AI 未来:训练模型时间可缩短至 1_20

导读:

据最新消息印尼的两名归化球员埃利亚诺赖因德斯与希尔格斯将在下周一正式宣誓成为印尼公民随着他们的加入印尼队将在月的世预赛中大大增强实力特别是希尔格斯他被认为是目前印尼最强归化球员...

据最新消息,印尼的两名归化球员埃利亚诺·赖因德斯与希尔格斯将在下周一正式宣誓成为印尼公民。随着他们的加入,印尼队将在10月的世预赛中大大增强实力,特别是希尔格斯,他被认为是目前印尼最强归化球员,身价高达700万欧元。这一消息引发了中国球迷的广泛关注,因为两人有望在报名截止日前完成所有手续,从而在10月的世...

IT之家 10 月 22 日消息,科技媒体 d aconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了 的 Normalized Tran ormer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。

nGPT 架构提升效率的秘诀在于“超球面学习”(Hypersphe cal learning)这个概念。

传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。

这种几何结构有助于创造更稳定 的学习过程:

减少训练步骤:nGPT 不再直接对模型权重应用权重衰减,而是依赖学习到的缩放参数,优化模型在训练中的调整方式。

简化过程:此方法 了对 LayerNorm 或 RMSNorm 等归一化技术的需求,使训练过程更为简单和快速。

英伟达团队使用 OpenWebText 数据集进行 ,nGPT 在速度和效率上均优于传统的 GPT 模型。对于长达 4000 个 tokens 的文本输入,nGPT 所需的训练轮次远少于传统模型,显著缩短了训练时间。

nGPT 的一个关键优势是将归一化(normaliz ion)和表示学习(represent ion learning)结合成一个统一框架,这种设计简化了模型架构,便于扩展和适应更复杂的混合系统。未来,nGPT 的方法可能被整合进其他类型的模型和架构,从而开发出更强大的 AI 系统。

英伟达新 nGPT 架构撬动 AI 未来:训练模型时间可缩短至 1_20

IT之家附上参考地址

返回列表
上一篇:
下一篇: