gydtep 发表于 2021-12-7 17:44:41
Batch采样策略即按类别进行采样,而数据中类别总数远远大于batch size,因此可以缓解类别冲突的问题。MDR loss是在Triplet loss基础上设计了根据不同距离区间进行正则化约束的新的度量学习框架,从而减少模型对对噪声样本的过拟合。gydtep 发表于 2021-12-7 20:07:57
针对局部特征的提取,我们主要的思路是将牌匾垂直切分成几个部分,分别关注每个部分的局部特征,并对局部特征进行对齐后优化。对齐操作如下图9所示,首先将特征图进行垂直池化,得到分块的局部特征图,再计算两张图局部特征之间的相似度矩阵,然后根据公式1找到最短距离将两张图像进行对齐,其中,i,j分别表示两张图中的第i块特征和第j块特征,dij表示两张图中第i块和第j块特征的欧式距离。gydtep 发表于 2021-12-8 10:30:53
数据是非常重要的,因为模型很难做到完美,总是会存在Corner case,而解决Corner case的一个非常高效的手段就是针对性补充数据。补充数据的关键是如何挖掘Corner case以及如何自动标注,该方向也是目前学术的研究热点,即半监督学习以及主动学习。gydtep 发表于 2021-12-8 13:15:28
因此在自动化方面,我们从最基础的单元测试、到接口测试、再到领域场景自动化及跨领域的自动化以及端的自动化方面都有积累。gydtep 发表于 2021-12-8 17:50:02
二、执行链路构建:重点在于如何自动构建出克执行的系统调用链路。大致思路为:1)基于落盘数据获取线上执行全链路的所有鹰眼;2)根据鹰眼(trace)及系统调用关系构建执行链路;3)执行链路编排构建链路执行能力;gydtep 发表于 2021-12-9 07:47:25
2、特征分类:根据数据的聚合,对于有意义的离散类型数据,比如订单总价,往往我们希望得到零价订单,高值订单及普通订单三类,这三类是未自动打标的,需要我们聚合出范围在特征提取过程中动态识别并分类。gydtep 发表于 2021-12-9 10:29:14
我没有答案,即使科技发展到现在这个程度,面对疫情我们仍然非常有挑战。所以我们相信未来人类再往前走,一定还会有更加挑战性的问题等着我们,我们的科技是不是足够有担当,能够为这些问题做好准备,这是非常关键的事情;gydtep 发表于 2021-12-9 17:21:54
我们早期的切入点比较直接,如何用机器快速解决海量遥感的图像和信息。比如做环保检测,对各个生态红线的监管,单靠人逐一来判断的效率是很低的,机器非常适合处理海量的数据,这是我们的切入点。在这个过程中我们发现这样的技术不仅可以用于生态检测方面,还可以用在水利、农业等非常广的方面。gydtep 发表于 2021-12-10 08:54:52
阿里巴巴之前提出了零碳云,云是整个未来数字基础的基建,如果云能够变得绿色、低碳,甚至未来云是零碳,基于云之上的数字商业就可以是零碳的,这是一个非常重要的解决点。gydtep 发表于 2021-12-10 12:49:52
我想特别提一下开源,阿里巴巴的开源在国内一直是比较领先的,无论从开源的数量还是活跃度一直都是最高的。但早期的话,我们的开源很多时候是同学们自发的行动,大家在工作中做到很好的技术,对工作有用,就把它开源出去了。