gydtep
发表于 2021-12-4 18:53:28
第一个是算力的实践,我们通过新的芯片实现了更高的算力,让整个计算变得更加绿色。双11对我们来说,是算力最大的一个挑战。今年,我们开始尝试用新型的芯片,去支撑我们对算力要求最高的场景,即整个搜索推荐核心的AI算力场景。
gydtep
发表于 2021-12-5 09:01:30
第四,相信未来数字化、智能化一定能够在产业智能方面取得规模化、实用化的成果。去年云栖大会上,我们发布了小蛮驴物流机器人,目前已开始尝试规模化应用。截至11月10日晚上,小蛮驴已经送满了100万件。
gydtep
发表于 2021-12-5 12:57:45
第二个特点是非常绿色低碳,相比行业标准,M6实现同等参数规模,能耗仅为其1%,我们已将M6应用在了内部大规模场景上,同时也开放给外部合作伙伴使用。
gydtep
发表于 2021-12-5 18:46:32
预训练技术在计算机视觉(CV)领域如VGG、Google Inception和ResNet,以及自然语言处理(NLP)如BERT、XLNet和GPT-3的成功应用,启发了越来越多的研究者将目光投向多模态预训练。
gydtep
发表于 2021-12-5 19:53:06
目前,针对图像和文本的多模态预训练模型主要可以分为单流模型和双流模型两种架构。VideoBERT,B2T2, VisualBERT, Unicoder-VL , VL-BERT和UNITER使用了单流架构,即利用单个Transformer的self-attention机制同时建模图像和文本信息。
gydtep
发表于 2021-12-6 11:07:06
另一方面,LXMERT、ViLBERT和FashionBERT引入了双流架构,首先独立提取图像和文本的特征,然后使用更复杂的cross-attention机制来完成它们的交互。
gydtep
发表于 2021-12-6 14:53:09
我们提出了一种在电子商务应用中新颖的知识感知的多模态预训练方法K3M。模型架构如图3所示,K3M通过3个步骤学习产品的多模态信息:(1)对每个模态的独立信息进行编码,对应modal-encoding layer,(2)对模态之间的相互作用进行建模,对应modal-interaction layer,(3)通过各个模态的监督信息优化模型,对应modal-task layer。
gydtep
发表于 2021-12-6 19:03:00
表2显示了多模态问答任务的排序结果。在这个任务中,我们也可以看到类似于在商品分类任务中的观察结果。
2 实践(阿里的业务应用效果)
gydtep
发表于 2021-12-7 09:28:55
图像检索问题定义:给定查询图像(Query),通过分析视觉内容,在大型图像库中(Gallery)中搜索出相似的图像。该方向一直是计算机视觉领域的一个长期研究课题,在行人重识别、人脸识别、视觉定位等任务中均有广泛的研究。
gydtep
发表于 2021-12-7 11:36:31
而在该场景下,我们希望两个牌匾不要匹配,这就需要引入文本特征来增强特征区分性。不过,由于遮挡原因也会导致文本特征不同,因此需要结合图像特征进行权衡。而且,文本特征和图像特征来自多个模态,如何将多模信息进行融合也是该业务特有的技术难点。