KAIYUN中国·官方网站-开云中国门户入口

开云网站:交叉信息院大模型安全相关成果荣获ACL2024杰出论文奖-开云中国·官方网站
KAIYUN中国 - 专业模型设计制作企业 | 高品质多元化解决方案 | 诚信共赢

咨询热线:

0830-2509596

开云网站:交叉信息院大模型安全相关成果荣获ACL2024杰出论文奖

发布时间:2024-08-23 16:00人气:

  随着生成式人工智能技术的快速发展,虚假信息的创建和传播变得更加容易。这项研究聚焦于大型语言模型在这种环境下的表现,特别是它们在面对重复的虚假信息时是否会改变原有的信念。研究Kaiyun官方中国者构建了一个名为Farm的数据集,包含事实性问题及其相关的误导性信息。他们使用大型语言模型生成具有说服力的虚假信息,并在多轮对话中测试模型对这些信息的反应。实验分为三个阶段:初始信念检验、多轮对话中的劝说误导、结果信念检验。研究的主要发现包括:

  1. 大型语言模型普遍容易受到虚假信息的影响,但先进的模型如GPT-4等,显示出更强的抵抗能力。

  这项研究的影响在于,揭示了大型语言模型在处理信息时可能存在的脆弱性,并强调了提高模型对虚假信息的识别和抵抗能力的重要性。研究结果对于理解人工智能的局限性和改进其安全性和鲁棒性具有重要意义。此外,本研究还提出了一些解决方案,比如使用检测模块融合安全系统提示语来减少虚假信息的影响,这对于设计更可靠的AI系统具有指导意义。本项研究也引起了 AI 公司的关注,OpenAI在2024年5月发布的AI模型行为准则中提到的关于“用户意见冲突”的处理[1],也与本研究的主题相呼应。

  论文第一作者为清华大学交叉信息院2022级硕士生许融武,指导/合作老师为清华大学助理教授邱寒、美国东北大学助理教授史唯艳、交叉信息院教授徐葳、交叉信息院助理教授房智轩、南洋理工大学助理教授张天威。论文其他作者包括清华大学计算机系本科生蔡诗怀、张天祺,上海交通大学研究生杨殊鉴。


0830-2509596