[国内信息] 免费领取阿里云服务器2000元代金券！ [复制链接]
查看:817476 | 回复:5950

gydtep · 发表于 2021-12-6 18:03:25

实际上，这个任务的本质是学习一个模型来评估两个项目的多模态信息的相似性。直觉上，当对齐的商品对中的两个项目同时缺少标题或图像时，它们的信息看起来比一个项目缺少标题或图像而另一个项目什么都不缺时更相似。

gydtep · 发表于 2021-12-7 10:11:21

遮挡严重

在道路场景中，经常存在树木以及车辆等干扰信息，并且由于拍摄视角原因，拍摄到的POI牌匾经常会面临严重的遮挡问题，如下图所示：

gydtep · 发表于 2021-12-7 11:07:37

而且该遮挡场景还是不规则的，导致很难对两个牌匾进行较好地特征对齐，这给POI牌匾检索带来巨大的挑战。

文本依赖性

gydtep · 发表于 2021-12-7 17:45:14

是Triplet loss和MDR loss的对比示意图。MDR loss希望正样本和anchor之间的距离不被拉到无限近，同时负样本也不希望被推到无限远。以类别错误噪声样本来说，不同牌匾被误分为同一类别，按照Triplet loss的优化目标则会强制模型将两者距离学习到无限近，这样的话，模型会过拟合到噪声样本上，从而导致最终效果较差。

gydtep · 发表于 2021-12-8 09:14:46

半监督学习利用有标签数据训练出的模型来对海量无标签数据产生伪标签，进一步标签数据和伪标签数据混合后再优化模型。主动学习是利用有标签数据训练出的模型对海量无标签数据进行数据挖掘，并人工标注挖掘出的有价值数据。

gydtep · 发表于 2021-12-8 10:06:28

两者区别在于是否需要部分人工标注，半监督学习是完全由模型自身产生标签，但是可能导致模型效果存在上限，而主动学习则可以一定程度可提高该上限，因此未来需要深入研究两者的结合，从而更好的补充训练数据，解决Corner case。

gydtep · 发表于 2021-12-8 13:37:29

业务场景全覆盖的挑战
从业界来说，比较难的也同样是如何用比较简单的手段做到业务的全场景覆盖，对盒马来说也同样。

gydtep · 发表于 2021-12-8 14:39:34

首先，盒马的业务场景众多，包括inbound与outbound全流程，端到端的全流程多业态，含O2O模式、B2C模式、F2模式、Mini模式、Mall模式、X会员店模式、产地量贩模式、盒马邻里模式等。这么多种业务场景很难一一枚举。

gydtep · 发表于 2021-12-8 16:02:35

业务场景的真实覆盖率也难以度量，人工枚举的业务场景极易有遗漏，线上已频发漏测问题，无法覆盖线上全量场景，同时测试的场景覆盖率难以衡量，需要找到线上场景分母。

gydtep · 发表于 2021-12-9 07:48:07

3、特征聚合：依赖于特征的规则，进行所有字段的聚合，最终根据枚举类型字段出现次数进行有效判断，目前我们设定的值为20，这个值可以动态调整，仅仅为参考值而已。

百独托管7500 紫田网络	超高转化播放器收cps[推荐]	速盾CDN 免实名免备防屏蔽	阿里云爆款特卖9.9元封顶	提升alexa、IP流量7Q5团队
【腾讯云】中小企福利专场	【腾讯云】多款产品1折起	高防随时退换好耶数据	小飞国外网赚带你月入万元	炎黄网络4H4G10M 99每月
香港带宽CN2/美国站群优惠	中客数据中心服务器租用	联盟系统移动广告平台中易	企业专场腾讯云服务器2.5折	九九数据工信部正规资质
腾讯云新用户大礼包代金券	高价收cpa注册量高价展示	【腾讯云】2核2G/9.93起	租服务器找45互联随时退换	阿里云短信服务验证秒达

[国内信息] 免费领取阿里云服务器2000元代金券！ [复制链接]
查看:817476 | 回复:5950

落伍者

落伍手机绑定

[国内信息] 免费领取阿里云服务器2000元代金券！ [复制链接] 查看:817476 | 回复:5950

落伍者

落伍手机绑定

[国内信息] 免费领取阿里云服务器2000元代金券！ [复制链接]
查看:817476 | 回复:5950