KAIYUN中国·官方网站-开云中国门户入口

Kaiyun中国:北大王选所:让多模态大模型更懂人类在做什么|ECCV2024-开云中国·官方网站
KAIYUN中国 - 专业模型设计制作企业 | 高品质多元化解决方案 | 诚信共赢

咨询热线:

0830-2509596

Kaiyun中国:北大王选所:让多模态大模型更懂人类在做什么|ECCV2024

发布时间:2024-08-14 00:51人气:

  要知道,大多数现有研究都集中在封闭环境,一旦变成更接近现实的开放环境,模型就懵逼了!

  比如下图,先前的检测器在平衡已见和未见类别时遇到了困难,导致调和平均值较低,并且在未见类别上的表现较差。

  相比之下,CMMP方法有效解决了这一平衡问题,大幅提升了性能,并为未见类别建立了新的最佳性能。

Kaiyun中国:北大王选所:让多模态大模型更懂人类在做什么|ECCV2024(图1)

  在特征提取过程中使用视觉空间线索,帮助识别未见的人物-物体交互概念,并通过条件提示学习提高对未见类别的泛化能力。

Kaiyun中国:北大王选所:让多模态大模型更懂人类在做什么|ECCV2024(图2)

  总之,CMMP方法提供了一种新的范式,可以微调多模态大模型,使其具备泛化的区域级人物交互关系检测能力。

  以上研究来自北大王选计算机技术研究所,相关论文已被顶会ECCV 2024接收。

Kaiyun中国:北大王选所:让多模态大模型更懂人类在做什么|ECCV2024(图3)

  然后为每个子任务分别提出了解耦的视觉和文本提示,以消除它们之间的依赖性并缓解错误传播。

  条件视觉提示(Pv)用于将空间和交互性感知的知识注入图像编码器,并通过实例级视觉先验(Cins)和交互的全局空间模式(Cgsp)进行约束。条件语言提示(PL)通过正则化损失受人设计的提示(CL)的约束。

  团队采用的多模态模型的图像编码器最初通过对大规模图像-文本对进行对比学习预训练(CLIP),其能力可能仅限于理解图像级的一阶语义。

  为了使图像编码器能够区分图像中所有的人物交互性,团队提出将不同粒度的先验知识整合到条件视觉提示中,使其理解为人物交互关系检测任务定制的区域级二阶语义。

  给定输入图像,首先使用预训练的物体检测器获取所有实例级先验知识,包括边界框、置信度开云网站分数和检测到的实例的语义编码。

  此外,为了鼓励每个实例意识到其潜在的交互对象,团队将训练集中交互的全局空间模式(Global Spatial Pattern)与实例级先验知识(Instance-level Visual Prior)结合。

  具体来说,对于每个标注的交互人物对,研究人员首先计算其一元和二元空间特征。

  随后,使用K-means聚类算法确定聚类中心,并将其用作交互人物对的代表性空间模式。

  全局空间交互模式提供了一种类别无关的代表性空间配置,作为理解已见和未见人物交互概念之间交互性的桥梁。

  为了在学习人物交互检测任务特定表示的同时保留CLIP的可泛化通用知识,团队在文本分支中采用了带有一致性约束的语言感知提示学习(Language-aware Prompt Learning)。

  该约束确保已见和未见类别的学习原型(Prototype)之间保持合理的分离边界,不会彼此过度偏离。

  具体来说,对于每个动作类别,研究人员首先使用人工设计的提示对其进行格式化。利用可学习的上下文词充当已见和未见类别语义之间的桥梁。

  类别的最终表示通过将可学习的上下文词与上述句子的词向量拼接,然后通过文本编码器获得。

  为了进一步利用多模态模型文本编码器本身学习到的特征空间并提高对未见类别的泛化能力,研究人员提出使用人工设计的提示来指导可学习语言提示的特征空间。

  该约束确保已见和未见类别的原型之间保持合理的分离边界,不会彼此过度偏离。

  团队应用正则化对比学习损失来减少特征表示与人工设计语言提示的特征表示之间的差异。

  基于交互性感知的特征图和预训练物体检测器提取的人和物体的边界框,团队首先应用ROI-Pooling来提取不同区域的特征。

  然后,将不同区域提取的特征进行融合,并通过交互分类器进行最终的交互类别预测。

  整个模型在交互分类训练中使用了focal loss,同时还应用了语言正则化损失。

  在结果验证阶段,团队采用人物交互检测常用数据集HICO-DET,其中的600个人物交互类别由80个物体类别和117个动词类别组成。

  为了验证模型的零样本性能,研究人员在HICO-DET上评估了五种零样本设置。

  如下表所示,实验结果表明,CMMP在所有的零样本设定上,都在未见类上取得了最佳的性能,这证明了引入条件多模态提示的有效性。

Kaiyun中国:北大王选所:让多模态大模型更懂人类在做什么|ECCV2024(图4)

  如表中每种类型的最后一行所示,通过利用ViT-L/14骨干网来扩展CMMP以匹配CLIP4HOI的FLOPs,新方法在所有划分中都取得了最佳性能。

  这表明团队的模型在视觉特征的空间关系提取和交互分类的原型学习方面具有卓越的能力。

  此外,先前的方法在已见和未见类别之间表现出严重的性能差异,表明其缺乏泛化能力。

  而本研究的模型能够在很大程度上缓解这一问题,并且在泛化到以前未见的交互类别方面具有很高的潜力,这证实了带有约束的多模态提示的有效性。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  中国工程院院士、北京航空航天大学教授向锦武:无人机、低空智联网、eVTOL是低空经济三大增长极

  北大教授李玲:美国随便看一次病,要花掉上万美元!33%家庭破产,往往跟医疗支出太高有关!我们不能学他们

  新消费日报 今年我国快递业务量已突破1000亿;问界新M7汽车年度累计交付突破13万台;东南亚电商平台Lazada实现盈利……

  与中坚力量共成长,2024建信信托艺术大奖评委会特别奖获奖艺术家凌海鹏


0830-2509596