gydtep 发表于 2022-10-22 19:44:31
过去的12年非常精彩,下一个12年更加让人期待。站在这个时间点,从技术的视角看,未来12年可能会发生什么?什么是未来前进的方向?什么是未来突破的重点?以下4个方向特别重要。gydtep 发表于 2022-10-23 16:26:36
第一个方向是超级算力。过去12年,我们还在用信息时代的芯片架构、技术架构来支撑数字时代的发展,算力是整个上层技术和商业发展的瓶颈。gydtep 发表于 2022-10-24 10:22:07
做到更好地降本提效。通过这样一些技术的组合拳,阿里今年双11大促峰值的计算成本相较去年下降了50%。同时,作为平台我们不仅关心自身的减碳gydtep 发表于 2022-10-24 13:53:20
截至11月10日晚上,小蛮驴已经送满了100万件。我们关注小蛮驴送货单量,也关注大家的口碑。目前已有300多辆小蛮驴在200多家校园给同学配送货品gydtep 发表于 2022-10-24 19:56:05
主要差异在于采用模型结构与训练任务的差异组合,多模态预训练的下游任务可以是常规的分类识别、视觉问答、视觉理解推断任务等等。VideoBERT是多模态预训练的第一个作品,它基于BERT训练大量未标记的视频文本对。gydtep 发表于 2022-10-25 10:05:25
即利用单个Transformer的self-attention机制同时建模图像和文本信息。另一方面,LXMERT、ViLBERT和FashionBERT引入了双流架构,首先独立提取图像和文本的特征,gydtep 发表于 2022-10-25 15:56:18
多模态商品知识图谱技术可以服务于各种下游领域,例如多模态实体链接技术可以融合多种模态下的相同实体,可以广泛应用于产品对齐,明星同款等场景中,gydtep 发表于 2022-10-25 20:24:21
(2)modal-interaction layer。当建模模式之间的相互作用时,有两个过程。第一个过程是文本模态和图像模态之间的交互:首先通过co-attention Transformer基于图像和文本模态的初始特征学习对应的交互特征gydtep 发表于 2022-10-26 10:33:02
(4)K3M达到了最先进的性能。它将 “ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在各种模态缺失和模态噪声设置下的结果提高了0.6%到4.5%。gydtep 发表于 2022-10-26 16:18:46
例如:行人重识别以及人脸识别具有很强的刚性约束,并且具备明显的关键特征(行人/人脸关键点),因此会将人体分割或关键点检测信息融合到模型特征提取中。