行业动态

Kaiyun中国：2024年大模型驱动的智能软件研发有哪些进展？

发布时间：2025-10-29 01:11人气：

　　过去两年大模型技术发展很快，新的一天有可能带来新的消息，可谓AI技术日新月异，所以2024年的总结，必须留到最后一天（31号）来做。

　　为了更有章法和结构，按照我们今年9月发布的《智能化软件开发落地实践指南》中的框架来回顾，但不同的是，本文不局限于“开发”，还会囊括需求、设计、测试和运维等。

　　以OpenAI发布的各类大模型为例，2024年先后发布了Sora视频模、 GPT-4o多模态模型、o1系列推开云网站理模型、o3推理模型等，理解能力和推理能力快速成长，如下图所示：

　　从中能感受今天AI/大模型技术的高速发展，未来大模型赋能科学研究（AI4S、LLM4S）方方面面，科技进步会加速，甚至会以指数式的发展，未来不可限量，正如OpenAI CEO Sam Altman所说，18个月之后，人工通用智能AGI就会到来，希望我们要做好准备。

　　针对软件研发场景的专业化大模型不断涌现，内置代码理解、软件架构知识库，显著提升对复杂项目的分析与生成能力。不少企业在努力训练、优化自己的代码大模型，例如华为的PanGu-Coder、蚂蚁代码大模型CodeFuse等，但总体看代码大模型基本还是沿着2023年路径进化，这部分还可以参考下面这张2023年总结的图。

　　华为测试自动化脚本生成Kaiyun官方中国大模型，实现在智能测试领域应用的突破，实现了分钟级新特性编写，并能基于用例描述生成测试脚本。

　　腾讯测试用例生成场景大模型，可以生成测试场景和测试用例，提升测试用例质量及编写效率。

　　邮储银行开发“研发测试大模型”，基于此，打造端到端智能研发方案“智能研发测试助手”。

　　2024年是智能体（AI agent）的元年，这一年发展很快，说来话长，可以归为：大模型驱动的“广泛自动化”Agent：以 Devin、OpenDevin 为代表的自动化 Agent，能够在容器内执行整套任务流程：从解析 issue 到生成代码再到运行测试，一般还会内置一个“工具管理器”或“知识库”：

　　当 Agent 遇到特定框架或第三方库时，会优先查询系统内置的框架文档或最佳实践案例；

　　通过扫描项目依赖和文件结构构建“项目知识库”、对复杂项目的结构和依赖建立知识库索引，再结合大模型的自然语言理解能力，对 issue、PR 请求等进行分析，确保在生成代码或执行命令时能够调用正确的版本与命名空间，并做出较优的技术决策。

　　在执行单元测试或 UI 自动化测试时，Agent 调用对应的测试插件生成测试脚本，可自动执行后再将结果反馈给大模型进行迭代，对失败用例进行修复或重新生成；

　　研发流程中的编译、部署、日志分析等环节也可通过不同插件集成，从而形成“模块化”任务编排。

　　并实现“局部智能化”Agent 的纵深场景：在阿里内部已经上线了帮助自动解决编译问题、代码冲突的功能，并基于内部平台（Aone、Code 等）强制生成描述（Commit Message / Code Review 总结），逐步沉淀了设计文档与代码变更之间的映射关系：

　　通过大语言模型关联“需求 - 设计 - Code Review - 提交记录 - 测试结果”这条链路，让系统能够基于业务上下文来评估某段代码是否符合更高层的需求意图；

　　对于测试场景，自动生成的单元测试、接口测试也会参考项目的“历史缺陷数据”，在生成脚本时更有针对性。

　　我们更可以用SWE-Bnech的结果来展示其进步。在今年4月，采用GPT4+RAG技术，解决GitHub上面线%（倒数第一行），非常低。但同样的模型（GPT-4），配上Agent，成功率大幅提升到22.4%（倒数第7行）。现在一般会采用多agent协同工作，12月最新成绩为55%，可以解决一大半问题了，这一年进步很快。

　　可解释性技术突破：代表技术如稀疏自编码器（Sparse Autoencoders），将大模型内部组件分解成可解释特征，透明化大模型“黑盒子”，增强大模型可信度和安全性

　　长窗口大语言模型技术突破：代表技术如YaRN、LongRoPE、Kimi 开云网站Chat，将大模型的窗口拓宽至百万甚至千万词元，使其可以处理更长输入，智能体的多模态记忆可以更长，可以处理更复杂的任务

　　但更重要的进展是：出现了深度定制的AI Native IDE，如最近火的Cursor，今天还和硅谷的一个朋友交流，之前他们用GitHub copilot，代码采纳率只有30%，现在换了Cursor，代码采纳率提升了一倍，到达了60-70%，效果非常明显。

　　除了Cursor，还有Windsurf / MarsCode 等独立 IDE，它们都在内置代码生成模型的基础上，加入了对“软件架构知识、”“代码上下文”的深度理解支持。它们在 VSCode 技术栈上二次开发，一方面保留了 VSCode 丰富的插件生态，另一方面可以在底层为大模型提供额外的“项目级上下文”和“框架级知识库”：

　　通过扫描项目依赖、目录结构、配置文件与历史提交记录，构建对项目整体概念的“索引”；

　　对常见主流框架（如 Spring Boot、Django）的核心类和最佳实践进行梳理，用于在生成代码和进行重构时做出更符合框架约定的决策。

　　在代码智能补全时，IDE 会调用当前项目需要的插件（如数据库查询）以匹配字段名、索引规范等，从而生成更可靠的实现代码；

　　当开发者执行性能测试或自动化测试时，IDE 能整合性能监控插件输出结果并以自然语言形式向大模型返回，以协助进一步优化或调参。

　　国内编程助手的情况，可以查看我们年底发布的《2024年软件研发应用大模型国内现状调查报告》以及即将发布的文章

　　越来越多的研发团队采用“插件式”方法，将基础大模型接入不同的专业插件（如数据库查询分析、UI 自动化测试、性能监控等），形成灵活的模型生态。如阿里内部研发平台（Aone）的智能辅助工具Aone Copilot ，支持在其插件体系中融合多种业务能力，如搜索、业务需求管控等。

　　在 Copilot 中提供可扩展的“Agent/插件”接口，让不同业务线沉淀自有知识或工具（如数据库查询、日志检索、RAG 搜索等）；

　　利用 Aone 平台与企业内研发流水线的打通能力（Issue、Code Review、测试环境、发布系统等），实现从需求到上线的闭环协作；

　　在生成代码、进行测试或部署脚本时，Copilot 会调用对应插件并结合上下文信息（如项目结构、配置文件、业务“暗语”等），提升自动化程度和准确性。

　　通过API或RPC接口，将大模型能力与CI/CD流水线、DevOps平台、Issue管理工具打通，以应对不同阶段、不同角色的需求。

　　在一些先进的企业实践中，大模型不仅能“生成解决方案”，还可结合在线学习与反馈回路进行自适应优化，例如：

　　为了让 Copilot 提升对业务场景的理解与适配度，阿里推出了“Extensions”机制，让不同业务线将“垂直知识”接入 Copilot 插件，从而构建面向某一垂直领域的知识库。

　　当开发者针对一个特定功能提交需求或 Issue，Copilot 先根据现有知识库和大模型生成初步解决方案；

　　随后由测试用例与业务线反馈拼接成“反馈回路”，若结果不符合预期，Copilot 会自动记录失败原因（如编译错误、功能缺失、测试不通过），并再次调用模型进行修正或生成新方案；

　　这些“失败案例”或“改进过程”会被归档，逐渐形成更丰富的域内知识，让后续类似场景得到更准确的响应。

　　可以实现在一个独立容器内进行“在线执行”，并收集执行日志、测试报告、编译状态等反馈信息，提供给模型再次生成或修复方案，从而实现自适应的自动化流程。

　　2月16日 - Sora视频模型发布：能够依据简短文本提示或一张静态图片生成长达60秒的高清视频，涵盖多角色、不同动作和背景细节等，几乎达到电影级逼真场景。

　　5月14日 - GPT-4o多模态模型推出：该模型集文本、音频、视觉于一身，展现出强大且丝滑的多模态能力。

　　6月 -基于GPT-4的CriticGPT模型发布，旨在找出ChatGPT代码输出错误、辅助改进，并更好地帮助工程师评估ChatGPT响应质量和准确性。

　　9月 - o1系列推理模型推出，包括o1、o1-preview和o1-mini三款，这些模型通过 Kaiyun官方中国模仿人类的推理过程，能够在回答前进行更深入思考，从而处理更复杂任务。

　　10月 - 连续时间一致性模型sCM推出，将开启视频、图像、三维模型、音频等实时、高质量、跨领域的生成式人工智能新阶段。

　　12月5日至20日 - OpenAI 12场直播，首日发布满血版o1模型，期间期待许久的Sora Turbo正式发布（用户可使用多种工具进行视频编辑等操作），最终以官宣新一代推理模型o3收官。

　　6月：发布Claude 3.5系列模型，其中Claude 3.5 Sonnet在阅读、编码、数学和视觉等6个主要AI基准测试中排名第一，超越GPT-4o，

　　10月：推出Claude 3.5 Haiku，性能进一步提升，在多项测试中超越GPT-4o mini，尤其在编程任务上表现出色。

　　11月：发布开源模型上下文协议（MCP），旨在打破大模型数据孤岛，实现与外部数据源的无缝集成。

　　5月：发布Gemini 1.5 Pro，支持百万Token上下文窗口，成为当时最大的生成式AI模型之一。

　　12月：推出Gemini 2.0 Flash，专注于流媒体分析和实时操作指导，提升多模态能力。

　　6月：发布Llama 3.1，进一步优化了长序列建模效率，并在多项任务中表现优异。

　　12月：推出Llama 3.2，在推理（尤其在数学和编码）任务中表现突出。

　　12月：发布Grok 2.0，进一步提升生成式AI的能力，并计划在2025年扩展训练集群规模。

　　发布新一代基座大模型GLM-4，性能全面提升60%，单次处理文本达300页，支持复杂指令理解和规划百川智能发布了超千亿参数的大语言模型Baichuan 3，在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中展现了较强的能力

　　：支持200万字超长无损上下文，长文本处理能力领先，应用场景从长文章分析扩展到AI陪伴和智能体

　　正式上线视频生成功能并实现开源，参数量达130亿，并在综合评测中呈领先趋势9月

分享到：

上一篇：Kaiyun中国：吴永辉坐稳字节大模型1号位

下一篇：开云网站：90后字节高管自立门户募资9亿

KAIYUN中国·官方网站-开云中国门户入口

咨询热线：

Kaiyun中国：2024年大模型驱动的智能软件研发有哪些进展？

KAIYUN中国·官方网站-开云中国门户入口

咨询热线：

Kaiyun中国：2024年大模型驱动的智能软件研发有哪些进展？

微信号：13685669203（手机同号）微信二维码