企业微信
悟空CRM  >   公司新闻  >  小红书提出 OvarNet 模型:开集预测的新SOTA,“万物识别”有了新玩法

小红书提出 OvarNet 模型:开集预测的新SOTA,“万物识别”有了新玩法

悟空软件 阅读次数:1197 次浏览

在 CVPR2023 上,小红书社区技术团队提出了一项全新任务 —— Open-vocabulary Object Attribute Recognition(面向开放词汇的目标检测与属性识别)。该任务旨在采用单一模型对图像中任何类别目标同时进行定位、分类和属性预测,从而推动目标识别能力向更高的深度和广度发展。本文提出了 OvarNet 这一全新模型,OvarNet 基于海量多模态数据预训练的视觉语言模型开发,利用可获得的目标检测和属性识别数据进行 Prompt Learning(提示式学习)。同时,为了进一步获得高度可用的 Zero-shot 识别能力,我们从大规模图文数据中提取细粒度的类别和属性表示,进行弱监督学习。此外,我们还采用知识蒸馏的方式简化模型计算复杂度,显著提升 OvarNet 的实用性和时效性。实验结果表明,OvarNet 在开集目标检测和属性识别任务上取得了新 SOTA,证明了识别语义类别和属性对于视觉场景理解的互补性。

1.背景

理解视觉场景中的目标一直以来都是计算机视觉发展的主要驱动力,例如,目标检测任务的目的是在图像中定位出目标并为其分配预定义的语义标签,如“汽车”、“人”或“杯子”。尽管目标检测算法取得了巨大的成功,但是这种任务定义在很大程度上简化了我们对视觉世界的理解,因为一个视觉目标除了语义类别外,还可以从许多其他方面进行描述,例如,一辆公共汽车可以是“黄色”或“黑色”,一件衬衫可以是“条纹”或“无图案”。因此,学习属性可以补充类别级别的识别,从而获得更全面更细粒度的视觉感知。

已有大量的研究表明,理解目标的属性可以极大地促进目标识别和检测,甚至是对在训练集中极少出现或根本没有的视觉目标样例。然而,这些开创性工作中所考虑的问题和今天的标准相去甚远,例如,属性分类通常在以目标为中心的图像上进行训练和评估,而且属性的类别是固定的,有时甚至将目标的类别作为已知的先验。

在论文中,我们考虑在开放词汇场景下同时检测目标并分类属性的任务,即模型仅在一组可见的目标类别和属性上进行训练,但在测试时需要推广到未见过的目标类别和属性,如下图所示。完成这些任务我们观察到三个主要挑战:(1) 首先,在现有的视觉语言模型中,例如 CLIP 和 ALIGN,从图文对中学习得到的表示往往偏向于目标类别,而不是属性,这导致在直接用于属性识别任务时存在特征不对齐的问题;(2) 其次,没有理想的训练数据集同时包含三种类型(目标框、类别和属性)的标注。据我们所知,只有 COCO Attributes 数据集提供这样程度的标注,但它的词汇量相对有限 ( 196 个属性,29 个类别);(3) 第三,在统一框架下训练这三项任务仍未被探索,具有一定到挑战性,即在开放词汇场景下同时定位(“在哪里”)和描述目标的语义类别和属性(“是什么”)。

为了解决上述问题,我们从一个简单的架构开始,称为 CLIP-Attr。该架构首先通过离线 RPN 从图像中提取目标候选框,然后通过比较属性词嵌入和候选目标的视觉嵌入之间的相似度来实现开放式词汇目标属性识别。为了更好地对齐属性词和候选目标之间的特征,我们在文本编码器端引入可学习的 prompt 向量,并在大量的图文对数据上微调原始 CLIP 模型。为了进一步提高模型效率,我们提出了 OvarNet,这是一个统一的框架,可以在一次前向传播中进行检测和属性识别。OvarNet 是通过在目标检测和属性预测两个数据集上训练,并通过蒸馏 CLIP-Attr 模型的知识来提高在 novel/unseen 属性的性能。我们提出的 OvarNet 是第一个可扩展的管道,在开放词汇场景下可以同时定位目标,并同时推断视觉属性和目标类别。实验结果表明,尽管只使用弱监督的图文对数据对 OvarNet 进行蒸馏,但它在 VAW、MSCOCO、LSA 和 OVAD 数据集上的表现优于先前的最新技术,展现了对新属性和类别的强大泛化能力。

2.方法

我们的方法主要分为 3 步:首先,利用目标检测数据和属性预测数据在开放词汇场景下训练一个简单的两阶段的方法;然后,通过利用大量的图文对数据进一步微调这个两阶段模型以提高在 novel/unseen 类别和属性上的性能;最后,为了保证泛化性和前传速度,我们基于知识蒸馏的范式设计了一个一阶段的算法。

2.1 两阶段算法

作为社交图谱数据,数据的一致性至关重要。我们需要严格保证数据的最终一致性以及一定场景下的强一致性。为此,我们采取了以下措施:

作为社交图谱数据,数据的一致性至关重要。我们需要严格保证数据的最终一致性以及一定场景下的强一致性。为此,我们采取了以下措施:

2.2 图文对数据微调

首先,我们对图文对数据进行预处理,从句子中解析出类别词、属性词、和名词短语;随后,我们使用预训练的 CLIP-Attr 对数据进行伪标签标注;最后为了避免噪声标签的影响,我们通过多实例 NCE 损失进行监督训练。

下图给出了利用海量图文对数据微调 CLIP-Attr 的网络结构图。

2.3 单阶段蒸馏算法

尽管通过预先计算的提议框和上述的 CLIP-Attr 模型可以实现开放词汇目标属性预测,但其推理过程非常耗时,因为每一个裁剪后的区域都会输入到视觉编码器中。在这一部分,我们的目标是解决缓慢的推理速度,端到端地训练一个用于目标检测和属性预测的 Faster-RCNN 类型的模型,称为 OvarNet。图像会被依次经过视觉编码器、类别无关的区域提议网络和开放词汇属性分类网络。

下图是其整体网络框架。为了提高模型处理未知类别和属性的能力,我们进一步加入了 CLIP-Attr 模型的额外知识进行蒸馏。

3.实验

我们考虑的开放词汇目标属性识别包括两个子任务:开放词汇目标检测和对所有检测到的目标进行属性分类。所采用的数据集有 MS-COCO、VAW、LSA 和 OVAD。为了评估模型的性能,在指标评价上我们同时考虑 box-given 和 box-free 的设定,使用 mAP 进行评价。

3.1 COCO 和 VAW 上的结果

3.2 OVAD 和 LSA 上的结果

3.3 一些可视化结果

4.结语

本文探讨了开放词汇目标检测和属性识别问题,即同时定位目标并推断它们的语义类别和视觉属性。我们从一个简单的两阶段框架( CLIP-Attr )开始,使用预训练的 CLIP 对目标提议进行分类。为了更好地对齐以目标为中心的视觉特征与属性概念,我们在文本编码器侧使用可学习提示向量。在训练方面,我们采用联合训练策略来利用目标检测和属性预测数据集,并探索一种弱监督训练方案,利用外部图像-文本对增加识别新属性的鲁棒性。最后,为了提高计算效率,我们将 CLIP-Attr 的知识蒸馏到一种 Faster-RCNN 类型的模型中(称为 OvarNet)。在 VAW、MS-COCO、LSA 和 OVAD 等四个不同的基准评估中,我们表明联合训练目标检测和属性预测有助于视觉场景理解,并大大优于现有方法独立处理两个任务的方法,展示了强大的泛化能力,可以处理新的属性和类别。

对内容的充分理解,是实现内容推荐和检索的有效工具。在小红书双列布局场景下,对笔记封面图篇的理解就显得格外重要。采用本文所示的开集目标属性识别能力,我们可以在更细粒度上对封面图进行结构化理解。比如除了可以检测到人物之外,还可以进一步标记人物衣着、姿态等属性,从而在进行推荐和检索时,实现更加智能和个性化的内容推荐。此外,在构建小红书的内容质量体系时,通过对图片的充分解析,我们能够更精确地描述一篇笔记的质量分级,进而实现内容基于质量的差异化分发。

  • 论文地址:arxiv.org/abs/2301.0950

5.作者介绍

陈科研

现博士就读于北京航空航天大学,曾在 Proceedings of the IEEE、TGRS、CVPR 等发表多篇论文。主要研究方向为遥感图像处理,多模态学习。

莱戈

小红书生态算法团队负责人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等会刊发表 10 余篇论文,曾获 YouTube-VOS 视频分割竞赛 Top-3 排名,曾获天池视觉分割大奖赛复赛第 1 名。主要研究方向:目标跟踪、视频分割、多模态分类/检索等。

汤神

小红书智能创作团队负责人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等会议与期刊发表近 20 篇论文。多次刷新 WiderFace 和 FDDB 国际榜单世界记录,ICCV Wider Challenge 人脸检测国际竞赛冠军,ICCV VOT 单目标跟踪冠军,CVPR UG2+亚军。

悟空CRM产品更多介绍:www.5kcrm.com

相关内容

咋挑一款牛的CRM系统?有啥参考?

咋挑一款牛的CRM系统?有啥参考?哎,说到选CRM系统啊,这事儿可真不是个小工程。毕竟,一个好的客户关系管理系统(简称CRM)能帮你搞定很多事情,比如管理客户信息、跟踪销售进度、分析市场趋势等等。但市面上那么多选择,到底该怎么挑呢?别急,咱们慢慢来聊。了解自己的需求首先,你得清楚自己想要什么。就像买衣服一样,得知道自己是想穿休闲装还是正装对吧?同样地,在挑选CRM之前,先问问自己:我最需要解决哪些
相关文章

一款集CRM系统、人力资源和财务系统于一体的办公软件

在当今这个数字化转型的时代,企业对于高效管理工具的需求日益增长。从传统的纸质记录到现在的云端服务,每一次技术的进步都为企业带来了前所未有的机遇与挑战。今天,我们就来聊聊这样一款神奇的产品悟空CRM——它不仅整合了客户关系管理(CRM)、人力资源管理和财务管理等多个领域功能于一身,还能够帮助企业实现一站式办公自动化。一、全面覆盖:让信息流动更顺畅首先,在这款办公软件中,最让人眼前一亮的就是其全面的功
相关文章

客户表格咋用?提升业绩有啥神操作?

你好啊,聊聊客户表格这事儿嘿,大家好!今天咱们就来聊聊一个在工作中特别实用的小工具——客户表格。你可能觉得这玩意儿听起来挺枯燥的,但其实用好了,它可是能帮你大大提升业绩的秘密武器哦!客户表格是个啥?首先,咱们得搞清楚客户表格到底是个什么东西。简单来说,就是一张用来记录客户信息的表单啦。比如客户的姓名、联系方式、购买历史啊这些基本信息都会被记录下来。别小看了这张表,它可是帮助我们更好地了解客户需求、
相关文章

客户关系系统,你真的用对了吗?

开篇:客户关系系统,你真的用对了吗?哎呀,说到这个客户关系管理系统(CRM),真是让人又爱又恨啊。它就像是个大宝库,里面藏着无数的宝藏,但如果你不知道怎么打开这扇门,那可就只能干瞪眼了。今天咱们就来聊聊,怎样才能让CRM不再成为摆设,真正发挥它的威力。一、了解你的需求首先呢,得搞清楚自己到底需要什么。就像买衣服一样,你得知道自己是想要休闲装还是正装,不然就算给你一堆名牌,也穿不出那个味儿来。对于企
相关文章

大公司用CRM系统要咋部署?稳不稳?

从零开始,聊聊CRM系统哎呀,说到这个CRM(客户关系管理)系统啊,真是让人又爱又恨。它就像是个超级助手,能帮你搞定客户信息、销售流程还有市场活动这些事儿。但是呢,要想让它真正发挥作用,部署起来可得费点心思了。首先,搞清楚你的需求是什么咱们在决定用哪个CRM之前,得先想明白自己到底需要什么功能。比如,你是想要更好地管理客户数据呢?还是说更看重提高销售效率?或者是希望通过分析来优化营销策略?每个人的
相关文章

CRM系统的平均成本是多少?

CRM系统:究竟值不值得投资?大家好!今天咱们来聊聊一个很实用但又让人摸不清底细的话题——CRM(客户关系管理)系统的平均成本。在当今数字化时代,企业越来越依赖技术工具来提升效率和改善客户服务体验,而CRM就是其中最不可或缺的一员。一、为什么需要了解CRM的成本首先呢,我想问问你有没有想过这样一个问题:“我到底该不该花这笔钱去购买并实施一套新的CRM?”其实这很正常啦,毕竟谁也不想把宝贵的预算浪费
相关文章

CRM系统的数据挖掘和预测分析能力如何?

CRM系统的数据挖掘与预测分析:开启商业智慧的大门嘿,大家好!今天咱们聊聊一个在现代企业管理中越来越火的话题——CRM系统中的数据挖掘和预测分析能力。你是不是经常听到“大数据”、“人工智能”这些词呢?其实啊,在客户关系管理(CRM)领域里头,这两个概念也正在改变游戏规则。什么是CRM?首先得解释一下什么叫作CRM吧。简单来说,CRM就是一套帮助公司更好地理解和服务客户的工具和技术集合体。它不仅能够
相关文章

CRM系统的特点有哪些?它的主要作用是什么?

CRM系统:让客户管理变得更轻松嘿,大家好!今天咱们来聊聊一个在商业领域里非常有用的小工具——CRM(Customer Relationship Management)系统。你可能听说过它,也可能对它还比较陌生,没关系,我会尽量用通俗易懂的语言帮你理解这个东西到底是个啥,有什么特点和主要作用。什么是CRM?首先得弄明白,“CRM”这三个字母是“Customer Relationship Manag
相关文章

CRM软件管理系统是什么?它的主要功能和作用是什么?

CRM 软件管理系统:现代企业运营的好帮手嘿!你知道吗?如今的企业管理可不像以前那么简单了。随着市场的竞争日益激烈,客户关系变得越来越重要,而CRM(Customer Relationship Management)软件系统就是为此应运而生的一种强大工具。一、什么是CRM?简单来说,CRM是一种用来管理和优化与客户的互动的技术解决方案。它就像一个超级智能的大脑,帮助公司记住每个客户的信息,并且在合
相关文章

CRM的价格是多少?咋定价的?

嗨,大家好!今天咱们来聊聊一个大家都关心的话题——CRM系统的定价问题。你知道吗,在选择适合自己的客户关系管理(CRM)系统时,价格往往是决定性因素之一。一、市场上的CRM产品大概价格首先得说一句:市场上CRM产品的比较多!通常分为开源CRM、SAAS云服务、私有化部署。开源CRM好的品牌比较少,通常时商用后开始收费。SAAS云服务通常几百元每人每年,而私有化部署的价格通常根据其需要,几万或者几十
相关文章
最新文章

咋挑一款牛的CRM系统?有啥参考?

咋挑一款牛的CRM系统?有啥参考?哎,说到选CRM系统啊,这事儿可真不是个小工程。毕竟,一个好的客户关系管理系统(简称CRM)能帮你搞定很多事情,比如管理客户信息、跟踪销售进度、分析市场趋势等等。但市面上那么多选择,到底该怎么挑呢?别急,咱们慢慢来聊。了解自己的需求首先,你得清楚自己想要什么。就像买衣服一样,得知道自己是想穿休闲装还是正装对吧?同样地,在挑选CRM之前,先问问自己:我最需要解决哪些
最新文章

一款集CRM系统、人力资源和财务系统于一体的办公软件

在当今这个数字化转型的时代,企业对于高效管理工具的需求日益增长。从传统的纸质记录到现在的云端服务,每一次技术的进步都为企业带来了前所未有的机遇与挑战。今天,我们就来聊聊这样一款神奇的产品悟空CRM——它不仅整合了客户关系管理(CRM)、人力资源管理和财务管理等多个领域功能于一身,还能够帮助企业实现一站式办公自动化。一、全面覆盖:让信息流动更顺畅首先,在这款办公软件中,最让人眼前一亮的就是其全面的功
最新文章

客户表格咋用?提升业绩有啥神操作?

你好啊,聊聊客户表格这事儿嘿,大家好!今天咱们就来聊聊一个在工作中特别实用的小工具——客户表格。你可能觉得这玩意儿听起来挺枯燥的,但其实用好了,它可是能帮你大大提升业绩的秘密武器哦!客户表格是个啥?首先,咱们得搞清楚客户表格到底是个什么东西。简单来说,就是一张用来记录客户信息的表单啦。比如客户的姓名、联系方式、购买历史啊这些基本信息都会被记录下来。别小看了这张表,它可是帮助我们更好地了解客户需求、
最新文章

快速注册,立即使用

仅需一分钟,立即注册悟空云。悟空CRM免费试用。
客户端下载