gydtep 发表于 2020-9-10 14:20:49
高德文字识别技术经过多年的发展,已经有过几次大的升级。gydtep 发表于 2020-9-10 15:23:34
自然场景中的文字区域通常是多变且不规则的,文本的尺度大小各异,成像的角度和成像的质量往往不受控制。gydtep 发表于 2020-9-10 16:05:09
文本行识别全对率:表示文字识别正确且读序正确的文本行在所有文本行的占比。gydtep 发表于 2020-9-10 21:23:03
对Skip Connections和激活函数进行了优化,并在训练过程中也加入随机样本变换,大幅提升文字识别的能力。gydtep 发表于 2020-9-11 10:04:17
目前场景文本检测能力已经广泛应用于高德POI、道路等多个产品中,为了验证模型能力,分别在ICDAR2013(2018年3月)、ICDAR2017-MLT(2018年10月)、ICDAR2019-ReCTS公开数据集中进行验证,并取得了优异的成绩。gydtep 发表于 2020-9-11 12:29:07
相比之下序列识别包含更多的上下文信息,而且不需要定位单字精确的位置,减小因为汉字结构导致的识别损失。gydtep 发表于 2020-9-11 14:23:38
在实际应用中,由于被识别的目标主要以自然场景的短中文本为主,场景文本的几何畸变、扭曲、模糊程度极为严重。gydtep 发表于 2020-9-11 16:29:20
在地图数据生产业务中经常会在道路标志牌中发现一些生僻的地点名称或者在POI牌匾中发现一些不常见的字甚至是繁体字,因此在文字识别效果优化中,gydtep 发表于 2020-9-11 19:28:02
我们分别从数据,模型设计层面阐述如何解决数据不足和模糊识别的问题,以及如何进一步提高文字识别能力。gydtep 发表于 2020-9-12 10:20:29
目前高德主要依赖深度学习的方式解决场景文字的识别问题,相对国外地图数据,国内汉字的基数大,文字结构复杂导致对数据多样性的要求更高,数据不足成为主要痛点。