KAIYUN中国·官方网站-开云中国门户入口

Kaiyun中国:英伟达新nGPT架构撬动AI未来:训练模型时间可缩短至120-开云中国·官方网站
KAIYUN中国 - 专业模型设计制作企业 | 高品质多元化解决方案 | 诚信共赢

咨询热线:

0830-2509596

Kaiyun中国:英伟达新nGPT架构撬动AI未来:训练模型时间可缩短至120

发布时间:2024-10-23 08:28人气:

  IT之家 10 月 22 日消息,科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,

  传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。

  减少训练步骤:nGPT 不再直接对模型权重应用权重衰减,而是依赖学习到的缩放参数,优化模型在训练中的调整方式。

  简化过程:此方法消除了对 LayerNorm 或 RMSNorm 等归一化技术的需求,使训练过程更为简单和快速。

  英伟达团队使用 OpenWebText 数据集进行测试,nGPT 在速度和效率上均优于传统的 GPT 模型。对于长达Kaiyun全站网页 4000 个 tokens 的文本输入,nGPT 所需的训练轮Kaiyun全站网页次远少于传统模型,显著缩短了训练时间。

Kaiyun中国:英伟达新nGPT架构撬动AI未来:训练模型时间可缩短至120(图1)

Kaiyun中国:英伟达新nGPT架构撬动AI未来:训练模型时间可缩短至120(图2)

  nGPT 的一个关键优势是将归一化(normalization)和表示学习(representation learning)结合成一个统一框架,这种设计简化了模型架构,便于扩展和适应更复杂的混合系统。未来,nGPT 的方法可能被整合进其他类型的模型和架构,从而开发出更强大的 AI 系统。


0830-2509596