gydtep
发表于 2021-12-6 11:48:58
随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。多模态知识图谱与传统知识图谱的主要区别是,传统知识图谱主要集中研究文本和数据库的实体和关系,
gydtep
发表于 2021-12-6 14:08:30
(2) PKG与其他模态包含的信息有重合也有互补,以图2的Item-1为例,从图片、标题和PKG都可以看出Item-1是一件长袖t恤;另一方面,PKG表明这款t恤不仅适合秋季,也适合春季,但从图片和标题看不出来。因此,当存在模态噪声或模态缺失时,PKG可以纠正或补充其他模态。
gydtep
发表于 2021-12-6 17:51:55
图4显示了产品对齐任务的结果。在这个任务中,我们可以得到类似于在项目分类任务中的观察结果。此外,对于模态缺失,模型性能不一定随着缺失率的增加而降低,而是波动的:当缺失率(TMR、IMR和MMR)为50%或80%时,模型性能有时甚至比100%时更低。
gydtep
发表于 2021-12-6 18:03:25
实际上,这个任务的本质是学习一个模型来评估两个项目的多模态信息的相似性。直觉上,当对齐的商品对中的两个项目同时缺少标题或图像时,它们的信息看起来比一个项目缺少标题或图像而另一个项目什么都不缺时更相似。
gydtep
发表于 2021-12-7 10:11:21
遮挡严重
在道路场景中,经常存在树木以及车辆等干扰信息,并且由于拍摄视角原因,拍摄到的POI牌匾经常会面临严重的遮挡问题,如下图所示:
gydtep
发表于 2021-12-7 11:07:37
而且该遮挡场景还是不规则的,导致很难对两个牌匾进行较好地特征对齐,这给POI牌匾检索带来巨大的挑战。
文本依赖性
gydtep
发表于 2021-12-7 17:45:14
是Triplet loss和MDR loss的对比示意图。MDR loss希望正样本和anchor之间的距离不被拉到无限近,同时负样本也不希望被推到无限远。以类别错误噪声样本来说,不同牌匾被误分为同一类别,按照Triplet loss的优化目标则会强制模型将两者距离学习到无限近,这样的话,模型会过拟合到噪声样本上,从而导致最终效果较差。
gydtep
发表于 2021-12-8 09:14:46
半监督学习利用有标签数据训练出的模型来对海量无标签数据产生伪标签,进一步标签数据和伪标签数据混合后再优化模型。主动学习是利用有标签数据训练出的模型对海量无标签数据进行数据挖掘,并人工标注挖掘出的有价值数据。
gydtep
发表于 2021-12-8 10:06:28
两者区别在于是否需要部分人工标注,半监督学习是完全由模型自身产生标签,但是可能导致模型效果存在上限,而主动学习则可以一定程度可提高该上限,因此未来需要深入研究两者的结合,从而更好的补充训练数据,解决Corner case。
gydtep
发表于 2021-12-8 13:37:29
业务场景全覆盖的挑战
从业界来说,比较难的也同样是如何用比较简单的手段做到业务的全场景覆盖,对盒马来说也同样。