KAIYUN中国·官方网站-开云中国门户入口

Kaiyun中国:2024:大模型背景下知识图谱的理性回归-开云中国·官方网站
KAIYUN中国 - 专业模型设计制作企业 | 高品质多元化解决方案 | 诚信共赢

咨询热线:

0830-2509596

Kaiyun中国:2024:大模型背景下知识图谱的理性回归

发布时间:2025-04-15 03:25人气:

  在第二章《TOP 101-2024 大模型观点》中,蚂蚁集团知识引擎负责人,KAG 项目负责人认为,随着大模型训练范式从预训练(Pre-training)阶段向后训练(Post-Trai开云网站ning)阶段的迁移,人们的关注焦点也逐渐从语言模型的生成能力越来越多转向推理能力。

  这一转变的本质是更加重视模型理解和处理复杂问题的能力。可以预见,2025 年基于知识图谱 + 大语言模型的垂域推理应用和开源项目将越来越多的涌现,为垂直领域的复杂问题问答推理提供新的解决方案。

  2024 年 11 月 30 日,适逢 GPT 3.5 发布两周年,在过去Kaiyun官方入口的两年时间里,国内的大模型产业在基座模型、智能体(Agent)技术以及检索增强生成(RAG)等方面都取得了显著的进步,并催生了众多优秀的开源项目。

  随着越来越多高质量和多样化的数据被加入到预训练数据中,如通义千问、DeepSeek、文心一言、蚂蚁百灵等基座大模型在知识掌握、推理能力和理解水平上都有了显著的提升,在诸多榜单和真实问题上展现出了超越 GPT-4o 的水平。

  然而,大模型幻觉、数据时效性、隐私安全、以及推理解释性等问题并没有随着模型开云网站能力越来越强而消失,这些问题仍然存在并严重阻碍着大语言模型在垂直领域的应用。这也造就了模型越来越强,垂直领域的杀手级应用依然没有出现的怪象。

  为了应对这些问题挑战,行业及社区都在不断的积极探索外部知识库与大型语言模型的方式来寻找解决方案。在此过程中,涌现出了许多出色的开源项目,它们的技术路径大致可以分为两类:一类是基于搜索引擎技术的改进,另一类则是基于知识图谱技术的发展。

  2024 年有多个搜索引擎为基础的 RAG 框架发布并取得比较大的关注,包括 QAnything、Ragflow、MaxKB 等近 20 个开源框架。这类都是比较经典的方法,以搜索引擎的向量检索和文本检索为基础为大语言模型提供外挂的文本知识库,能够在保证垂直领域数据隐私安全的前提下,将私域知识与大语言模型有效融合提升垂直领域的应用效率。RAG 开源项目通常集 Chunk 切分、向量化、存储、检索、生成等几个阶段于一体,其核心在于其中的不同策略适应和优化,如文档处理、检索策略等。

  以搜索引擎为基础的演进方案以文档检索为开始,以大语言模型的生成为终。RAG 回答问题的准确率受限于召回的 Chunks 和 LLM 的生成能力,也受限于搜索引擎向量相似度计算的不足,传统搜索引擎解决不了的问题,如难以感知文档间细粒度的实体知识关联、无法对文档内知识的知识要素执行逻辑推理等,这类 RAG 方法依然解决不了。这也让开发者陷入了 “一周出 demo,半年用不好” 的困境。为克服以搜索引擎为基础方法在向量计算和逻辑推理方面的不足,业界也涌现出了越来越多基于知识图谱的方案。

  知识图谱技术是 2012 年 Google 为改善搜索引擎的质量和相关性而提出的,他能够构建并理解实体及其之间的关系,能够整合不同来源的文档实现跨文档的实体关联,这使得知识图谱可以对用户查询提供更加精确和语境化的回答,可以突破向量计算的瓶颈而执行多步推理、逻辑推理。尽管有这些优势,知识图谱因其较高的构建和维护成本高,过去这几年也遭到了较多的诟病。

  大模型技术的出现,为知识图谱技术的发展提供了新的机遇窗口。如何充分利用大语言模型的能力来克服知识图谱的不足,并充分发挥知识图谱的优势?2024 年,涌现出了多个不错的开源项目并获得了广泛的关注。

  2024 年初有两个非常有代表性的工作,微软发布的 GraphRAG 和俄亥俄州立大学发布的 HippoRAG。两者都引入了知识图谱的方法通过开放信息抽取 (OpenIE) 来构建跨文档的细粒度语义关联以期缓解 RAG 在这方面的不足。

  GraphRAG 借助大模型和社区挖掘构建层次化社区摘要以支持能更全面的回答全局性问题,比如 “文档中的娱乐明星都出席过哪些活动”,而 HippoRAG 则引入了 PPR 及 IRCoT 的方法来挖掘跨文档的事实关联以回答多跳事实问答,比如 斯坦福哪个教授是从事神经科学阿尔兹海默症研究的。两者的核心目标依然是更有效的召回与目标 Query 相关的 Chunks,以生成更高质量的摘要或事实问答。但由于这两个方法的目标有所不同,导致它们的技术路线在 Chunks 构建、召回、答案生成及评价指标上有所差异。

  GraphRAG 使用大型语言模型 (LLM)提取的知识图谱。图片来源于:

  GraphRAG 类方法有效缓解了 RAG 跨文档语义关联不足的问题,无论在摘要问答和多跳问答上都取得了较大的效果提升,证明了这类方法的有效性。

  后续开源的 LightRAG、DB-GPT、lazyGraphRAG 是针对 GraphRAG 资源消耗大的方法改进,OpenSPG 开源的 KAG 较多的借鉴了 HippoRAG 的思想。GraphRAG 类方法因引入 OpenIE 抽取而引入了大量噪声导致构建的知识图谱并不能直接应用于推理,知识图谱强事实性、准确推理等优势并没有得到有效发挥。

  2024 年也有较多以传统知识图谱 KBQA 为基础的方法,通过大模型重塑了问答阶段的问题理解和答案生成过程,同时通过大模型 SFT 技术提升问题的逻辑拆解、三元组提取的准确性,具体到图谱的推理和检索过程与传统的 KBQA 类方法基本一致,比较有代表性的工作包括 ChatKBQA、ToG 等。

  这类方法是比较纯正的知识图谱技术路线,实现了结构化知识图谱与大模型技术的结合。社区关注度较高的 ToG 也推出了 2.0 版本在处理复杂推理任务、增强深度推理能力以及提供可解释和可追溯的推理路径方面更加出色。KBQA 为基础的方法依赖已构建完备的知识图谱,知识图谱长期被诟病的构建门槛高的问题依然没有得到缓解。

  2024 年 10 月蚂蚁集团发布的 OpenSPG/KAG 是知识图谱类方法中比较值得关注的,它主张逻辑符号引导的推理和检索以提升垂直领域知识问答的逻辑性、事实性。KAG 在框架设计中充分考虑了知识图谱、向量检索及大语言模型的能力优势,传统知识图谱被广为诟病的构建门槛高、知识稀疏性等问题在 KAG 框架中都得到了较多的诠释。

  KAG 框架是结合医疗、政务等垂直领域应用打磨而来,其中为降低领域知识图谱的构建门槛,KAG 适配了开放信息抽取以支持垂直领域的开箱即用和快速冷启动,并通过自动知识对齐模块来缓解开放信息抽取带来的噪声问题;为提升推理准确性并降低知识稀疏性带来的影响,KAG 引入了分层知识推理与检索框架,在结构化推理无果的情况下借鉴 QFS 的思想从 Chunks 中检索与目标问题相关的答案。

  KAG 框架上算是知识图谱与大模型技术的集大成者,代码中大量使用的本体结构、逻辑规则等图谱的技术元素。KAG 目前开放的是一个比较基础的版本,一般用户的上手成本还比较低,基本可以开箱即用。同时,结合垂直领域的推理要求还有较多工作需要持续优化,大量使用的图谱技术也让开发者的优化有一些学习门槛。

  随着大模型训练范式从预训练(Pre-training)阶段向后训练(Post-Training)阶段的迁移,人们的关注焦点也逐渐从语言模型的生成能力越来越多转向推理能力。这一转变的本质是更加重视模型理解和处理复杂问题的能力。

  以此为驱动,垂直领域私域知识库的应用也会更关注解决复杂问题的能力,如指标解读、研报生成、诊疗决策、表格计算、事实问答等,这些都是传统 RAG 向量计算模型难以解决的。

  随着大语言模型理解能力的不断增强,知识图谱可以不断克服并降低其构建门槛高、知识稀疏性等带来的影响,其固有的强推理能力和高可解释性的优势将得到更充分的发挥。

  可以预见,2025 年基于知识图谱 + 大语言模型的垂域推理应用和开源项目将越来越多的涌现,为垂直领域的复杂问题问答推理提供新的解决方案。

  蚂蚁集团知识引擎负责人,KAG 项目负责人,OpenKG TOC 专家。个人的主要技术方向为知识图谱、图学习及推理引擎、AI 引擎等,也从零到一基于蚂蚁多样化的业务场景构建了企业级知识图谱平台,平台累计提报专利 140 余项,软件著作权 10 余项。主导的项目先后获得 BU 总裁特别奖、优秀科技成果、金融科技创新奖、金融科技发展奖等。

  KAG 是一个知识增强生成的专业领域知识服务框架,KAG 依赖 OpenSPG 提供的引擎依赖适配、逻辑推理执行等能力:

Kaiyun中国:2024:大模型背景下知识图谱的理性回归(图1)

  4月2日,重庆市纪委监委披露了一则公职人员违规“挂证取酬”案例:罗某是某区一家公立医院外科科长,2020年7月至次年12月,他在医院工作期间,违规将个人的执业药师注册证挂靠在某药店,作为该店正常营业的重要资质。

  特朗普大厦商店,用价签遮盖中国制造!美政府大张旗鼓加税,又偷偷摸摸豁免!美服贸顺差近3000亿美元,恐被拖入贸易战

  央视记者在当地时间4月12日探访特朗普大厦商店,发现里面有许多“Made in China”的标牌被价签遮盖住了。

  最近这国际形势啊,因为美国挑起的关税战,那可真是闹得沸沸扬扬。根据中国商务部官网消息,2025 年金砖国家经贸联络组第二次会议在 4 月 10 日到 11 日以视频形式举行。

  28岁网红郑世杰胃癌去世,留下4个孩子。医生提醒:年轻人胃癌发病率逐渐增高,熬夜睡不够是胃癌的一大诱因。

  美国搞关税大战,对中国是好事吗? “当然不是,但这仗必须打

  4月13日,#香港大学 举办未来趋势论坛 #刘宁荣 :关税战让美国的#盟友 都不再相信它!#关税

  尖锐!美脱口秀主持人辣评特朗普“对等关税”,让美国经济从“一只‘普通毛毛虫’”,“变成一只‘死掉的毛毛虫’”。@抖音短视频

  上周,受美国政府对所谓“对等关税”政策进行部分调整,投资者恐慌情绪有所缓解,加上美联储突然发声称,在金融市场出现重大动荡时,将采取必要措施稳定市场,多个因素推动美国三大股指上周全线%。

  极目新闻记者 付瞰北京时间4月14日早上7时32分,全红婵在社交平台连发18张照片,并配文:那咋了这就破防了。与赛场上的严肃形象不同,照片中的全红婵变身“超级马里奥”与队友们搞怪合影。

  4月10日,北京市气象台发布大风橙色预警信息,相关部门发布森林防火红色预警信息。大风橙色预警下,防御指南要求停止户外有组织的体育或集会活动。

  “任教31年临近退休遭解聘”当事人发长文:距离退休只差3个月,月工资2000元

  据上游新闻报道,张莉是某技师学院一名合同制教师,自1993年起,她在该学院及其前身学校连续工作31年,已年满50岁。

  4月12日我们收到消息,特朗普又签署了一个行政命令,豁免部分从国外进入美国的电子消费产品,主要包括电脑、手机和屏幕以及这些产品的相关组装件。

  我是一名从事了20年开发的程序员,工作中我也使用golang,python,js等各种编程语言,是微软最有价值专家,腾讯云最有价值专家,华为云HCDE。


0830-2509596