广告

基于类别深度典型相关分析的多模态数据下的细粒度场发现

时间:2020-09-08 11:01:42 阅读:
通过研究照片和场所在多模式内容上的富文本描述之间的跨模式相关性,研究了细粒度的场所发现。与以往的研究不同,这项工作共同优化了成对相关性和基于类别的相关性,同时实现了精确的场所搜索和团体场所搜索。大量实验证实:第一,与最新方法相比,提出的 C-DCCA 方法大大提高了分组场所发现的性能。第二,使用粗略的位置信息有助于缩小 C-DCCA 和 DCCA 在精确场地搜索中的差距。第三,使用额外的图像资源来表示场地的视觉效果有助于进一步提高细粒度场地发现的性能。
广告

在这项工作中,将旅行目的地和商务地点作为场所。通过照片发现场地对于视觉上下文感知应用程序非常重要。不幸的是,很少有工作去关注复杂的真实图像,例如用户生成的场地照片。我们的目标是从异构的社交多模式数据中去发现细粒度的场地。为此,我们提出了一种新颖的深度学习模型,即基于类别的深度典型相关分析(D-CCA)。给定照片作为输入,此模型执行:1)通过进行精确的场地搜索(查找照片所在的场地)和 2)通过对输入的照片与场地文字描述进行跨模式相关分组场地搜索(查找与照片具有相同类别的相关场地)。在此模型中,通过深度网络将不同形式的数据映射到同一空间,并联合优化了用于精确场所搜索的成对相关性(来自同一场所的不同形态数据之间)和用于组场所搜索的基于类别的关联性(来自具有相同类别的不同场所的不同形态数据之间)。由于照片无法完全反映场所的富文本描述,因此在训练阶段每个场所的照片数量会增加以捕获场所的更多特征。通过整合 Wikipedia 和 Foursquare 场地照片,我们构建了一个新的场地感知多模式数据集。在该数据集上的实验结果证实了该方法的可行性。此外,对另一个公共可用数据集的评估证实,我们所提出的方法优于最先进的图像和文本之间的跨模式检索的方法。1、背景

上下文感知应用程序非常有前途,因为它们可以提供适合用户上下文的合适服务。假设用户是第一次参观某个经典,他不知道确切在哪里,而是在那儿照相。场所发现有助于找到拍摄照片的确切地点以及一组文本/视觉特征也与照片匹配的相关地点。前者捕获用户上下文,而后者对于场所推荐很重要。

由于我们缺乏可靠的场所数据源,因此从照片中进行细粒度的场地发现几乎是不可能的。在多媒体技术创新和移动用户参与的推动下,与业务相关的社交多媒体数据和信息已大量出现在互联网上,例如,Wikipedia 中用于商务场所的专题文章,Foursquare 和 Yelp 上的商务场所照片以及视频在 YouTube 上投放广告。另一方面,包含视觉业务内容的场所照片的增长使各种业务服务对于 Internet 上的搜索者而言更加明显,从而导致了现实世界中的访问或购买。用户与场所之间的交互会在 Internet 上聚集各种多媒体数据和信息,这为我们提供了利用社交多模式数据的力量进行细粒度场所发现的新机会。在这里,多模式表示每个场所在文本和视觉(图像)等不同模式下具有多种表示形式。

广告

一些文献已经研究了场地发现,例如,照片中地理类别的预测或照片的视觉概念,或照片位置的粗略预测。 但是,很少有工作致力于通过用户生成的更为复杂的真实图像(例如包含对象,地理类别和更有意义的语义描述的场所照片)进行细粒度的场所发现。

在这项工作中,我们调查了来自 Wikipedia 和 Foursquare 的与场所相关的多模式数据,并研究了(i)精确的场所搜索(查找拍摄照片的场地),以及(ii)在用于细粒度场地发现的联合框架中对场所进行搜索并分类(查找具有相同类别的相关场地)。据我们所知,这是第一项研究着重于通过与综合场所相关的多模式数据对场所进行视觉和文字多样性的联合优化。为此,我们提出了一种基于类别的深度 CCA(C-DCCA)方法,其中通过深度网络将不同模式中的数据非线性映射到同一空间,以便来自同一地点或不同地点的不同模式的数据 具有相同类别的人在该空间中高度相关。

2、实验方案

图 1 显示了整个框架。虚线(i)部分说明了所提出的网络体系结构。从图像和文本中,分别提取视觉特征和文本特征。然而,这些功能属于不同的模式,无法直接进行比较。因此,通过使用 DNN 模型将它们映射到同一空间。为了增强此公共空间中的相关性,将 CCA 用作目标函数,DNN 模型均由三个完全连接的层组成。为了捕捉相似场所的共同特征,我们使用 Foursquare 中定义的地理类别作为概念将场所划分为组。CCA 目标函数中考虑了同一场所的照片和文本之间的成对相关性,以及具有相同类别的不同场所的照片和文本之间的基于类别的相关性,该函数用于调整 DNN 模型。

1)视觉特征提取:CNN 在图像识别任务中表现出出色的性能,尤其是,CNN 在学习表示视觉内容的复杂功能方面具有强大的能力,例如 HOG 和 SIFT 。因此,在图像处理中,我们以 ImageNet 上预先训练的 VGG16 模型为例,为所有图像提取视觉特征。每个场所图像首先被转换为 224×224 的固定大小,然后输入到网络中。VGG16 模型包含 13 个卷积层(conv1-conv13)和三个完全连接的层(fc14-fc16)。除 fc16 出于图像处理目的使用 softmax 激活外,所有层均使用 ReLU(整流线性单元)激活。除最后一层外,每个完全连接的层后面都有一个辍学层,以避免过度拟合。每层依次处理图像,最后提取 fc15 的 4096 维特征作为每个场所图像的视觉特征。

2)文本特征提取:很多研究者已经提出了用于表示文本特征的方法,例如 TF-IDF(词频-文档频率),主题模型(LDA 模型)以及通过空间中的矢量表示每个单词的单词嵌入方法 (Word2Vec),其中含义相似的单词在空间中彼此接近。Doc2Vec 通过将整个文档转换为固定长度的矢量来扩展 Word2Vec 模型,同时考虑了上下文中单词的顺序。在文本处理中,我们以 Doc2Vec 模型为例来提取文本特征。从 Wikipedia 抓取的每个场所的文本描述都包含许多不相关的信息。首先,通过调用 Wikipedia API 仅提取主要文本和类别信息。然后,使用 coreNLP 对其进行标记,并传递给 Doc2Vec 模型,从而为每个场所关联生成固定的 300 维特征。

3)C-DCCA:通过使用不同的 DNN,可以将视觉特征和文本特征进一步转换为公共空间中的低维特征,DNN 的详细信息显示在表 1 中。这两个 DNN 各自具有 3 个完全连接的层。 在输入之前,需要进行批量归一化。在第一层和第二层中,有一个 drop-put 子层,用于避免过度拟合。每一层都采用其前一层的输出来计算其输出。

基于类别深度典型相关分析的多模态数据下的细粒度场发现

 

表 1 DNN 配置参数

基于类别深度典型相关分析的多模态数据下的细粒度场发现

 

图 1 基于 D-DCCA 的细粒度场景发现框架图

3、实验评估

在 Wikipedia 和 Foursquare 上,我们通过与 CCA,KCCA,DCCA,C-CCA(基于类别的 CCA)和 C-KCCA 进行比较来评估了所提出的 C-DCCA 方法的性能。

1)不同参数的影响评估:在训练中,使用了 Adam 优化器,并且将学习率设置为 0.0001,批次大小设置为 100。我们尝试使用不同的正则化参数 r(0.01、0.001、0.0001、0.00001),但未发现显着差异。在其余实验中,r 设置为 0.0001。参数 β 极大地影响系统性能。在不同的 β 值下,MRR1 和 MAP 的结果如图 3 所示。随着 β 的增加,MRR1 增加而 MAP 降低。 这是因为较大的 β 将导致协方差的权重较大,而交叉协方差的权重较小。当 β 在(0.3,0.7)范围内变化时,性能没有明显变化。在下文中,β 设置为 0.3。

基于类别深度典型相关分析的多模态数据下的细粒度场发现

 

2)分组场所搜索的评估:我们在训练中调整 Foursquare 照片的比例,以查看所有方法从每个场所的照片增加中受益的情况。图 4 展示了使用洛杉矶照片作为查询的回忆精度曲线,其中训练中使用的 Foursquare 照片的比例等于 20%。从图中可以看出,C-DCCA 改善了基于类别的相关性,而 DCCA 仅强调成对相关性。

基于类别深度典型相关分析的多模态数据下的细粒度场发现

 

3)精确场所搜索的评估:我们通过 MRR1 指标评估查找照片确切地点的性能,用 Foursquare 中的洛杉矶照片作为查询的 MRR1 结果如图 8 所示。尽管在所有方法中,MRR1 的性能都随训练中使用的 Foursquare 图像比例的增加而提高,但 C-DCCA 和 DCCA 之间仍然存在明显的差距。但是与 C-DCCA 中 MRR1 的减少相比,C-DCCA 中 MAP 的增加要大得多。

基于类别深度典型相关分析的多模态数据下的细粒度场发现

 

4)在 UCSD 数据集上的评估:为了证明其在其他任务中的适用性和有效性,我们将方法扩展到由 UCSD 组提供的公共数据集上的图像和文本之间的交叉模式检索和分类。 这个多模式图像文本数据集是完全根据 Wikipedia 的文章生成的,而无需依赖其他图像资源,该资源包含 10 个最受欢迎类别中的 2866 个文档(每个文档包含一对文本和图像)。它分为 2173 个文档的训练集和 693 个文档的测试集。类别的定义取决于 Wikipedia 标签,并且与具有特定于地点的语义标签的 Foursquare 不同。分组场所搜索的 MAP 结果见表 II。这些结果反映了三个事实。(i)就相关性分析而言,C-DCCA 优于中提出的跨模式检索方法。与 CM / SCM 相比,当使用相同的手工制作的 SIFThist + LDA 功能时,C-DCCA 可获得更好的性能。(ii)功能也起着重要作用。因为 VGG16 远远超过了 SIFThist,而 Doc2Vec 也比 LDA 好一点,所以当 C–DCCA 将其功能从 SIFThist + LDA 更改为 VGG16 + Doc2Vec 时,我们可以看到很大的改进。(iii)完善预训练模型也很有帮助。预训练模型的重新训练具有明显的效果(尤其是在使用 VGG16 + Doc2Vec 时),因为 UCSD 数据集的统计特性与用于预训练这些模型的大型数据集的统计特性并不完全相同。

基于类别深度典型相关分析的多模态数据下的细粒度场发现

 

  • 中国成为最大腕戴设备市场,引领全球增长 腕戴设备市场包含智能手表和手环产品。其中,智能手表市场在2024年前三季度全球出货量1.1亿台,同比下降3.8%;而中国智能手表市场出货量3,286万台,同比增长……
  • 截止2030年,全球蜂窝物联网连接收入将超过 260 亿美元 • 2023 年,全球蜂窝物联网连接数激增 24%,超过 33 亿,到 2030 年将突破 62 亿。 • 尽管中国在 2023 年以 23 亿的连接数规模占据全球蜂窝物联网连接总数的 70%,但其在全球连接收入中的份额仅为 36%。 • 到 2030 年,联网汽车、智能表计和智能零售这三大应用预计将合计占蜂窝物联网应用总市场份额的 60% 以上。 • 到 2030 年,5G 连接将在全球范围内超过 NB-IoT 连接,占物联网连接总收入的近 50%。
  • 为什么翻新机的价格在上涨? • 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
  • 2024三季度全球扫地机器人市场出货增长持续,卷势不减 从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
  • AMOLED行业核心模具,精密金属掩膜版国产技术攻克核心瓶颈 AMOLED行业的关键模具FMM及Invar在市场中属于极其细分而品质又要求极高的赛道,传统企业打法在这两个产品上都难以适用。唯有对上下游有深度了解,并能够将产业链技术链条打通,才能够将近似于黑箱中的FMM及其原材料Invar长期受限的困局打破。
  • IDC:2024前三季度中国安全硬件市场规模同比下降2.9% IDC定义下的网络安全硬件市场分别由统一威胁管理 (UTM)、基于UTM平台的防火墙 (UTM Firewall) 、安全内容管理(SCM)、入侵检测与防御 (IDP)、虚拟专用网(VPN)和传统防火墙 (Traditional Firewall) 构成。
  • 预计1Q25 NAND Flash价格将出现超10%下滑 2025年第一季NAND Flash供货商将面临库存持续上升,订单需求下降等挑战,平均合约价恐季减10%至15%。
  • 山东大学团队在高精度存算芯片领域取得新进展 本研究通过设计闪存存算一体架构,有效提升了计算效率和精度,为解决复杂计算任务提供了重要技术支撑。
  • 加速资源整合将是本田与日产合并后的首要任务 日本两大全球汽车集团本田与日产于2024年12月23日宣布启动合并谈判,目标在2025年6月达成协议,三菱汽车也有望加入。若三家车厂顺利合并,当务之急将是整合各自的资源以节省开支,利用规模化生产降低成本,以及加快电动车相关计划......
  • 2024过去了,细数中国工业经济这一年 这一年的成绩单足够亮眼,但来之不易。
广告
热门推荐
广告
广告
广告
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了