2024年末,杭州深度求索人工智能基础技术研究有限公司(简称DeepSeek)推出DeepSeek-V3模型,
DeepSeek的产品和服务不仅在国内市场上获得了广泛的认可,其技术和创新能力也引起了国际关注,尤其是在AI大模型领域,DeepSeek通过其开源策略和高性价比的产品,推动了AI技术的普及和应用。
在DeepSeek大模型背后,有一支年轻Kaiyun全站网页的研发团队。其中重要成员之一是北京邮电大学校友曾旺丁。
2023年12月,曾旺丁作为实习生进入DeepSeek,2024年硕士毕业后正式加入DeepSeek。作为DeepSeek研发团队的重要成员之一,曾旺丁深度参与了DeepSeek V2/CoderV2/V3/R1等系列研发,参与了高效模型结构设计与优化,如MLA架构等。
DeepSeek的研发过程并不是一帆风顺的。曾旺丁说到:“一般一次成功的实验背后需要做很多尝试,需要考虑很多限制(如计算量、访存量、实现复杂性、可并行性),还要保证最终的效果,有时候满足所有约束的结果并不存在,因此找到一些权衡各方面因素的模型结构挺不容易的,MLA之类的工作也是综合考虑的结果,更多的探索还在进行中。”
DeepSeek团队里,每位成员都保持着好奇心。曾旺丁表示:“DeepSeek最吸引我的是团队对智能本质的纯粹探索精神。这种集体认知升级的氛围与我个人的技术信仰深度契合。”
关于给学弟学妹们的建议,曾旺丁认为,要保持对未知领域的敏感度,定期投入时间研究感兴趣的问题。这种探索,可能会在某个时刻带来突破性启发。
DeKaiyun官方入口epSeek能够得到大家的认可,曾旺丁表示十分高兴。曾旺丁始终坚信深度神经网络的潜力,相信通用人工智能(AGI)将在不远的未来成为现实,也希望通过团队共同的努力为大家带来更好的大模型。
Copyright © 2024 开云沙盘有限公司 版权所有 备案号:蜀ICP备19012180号 网站地图