MyScript技术及手写识别功能 | Vision Objects CN - Vision Objects

在全球范围内使用的语言和方言超过 6800 种:其中,只有 600 种有自己的文字。

Vision Objects 坚持以收集全面的书写样本为基础,通过完善的行业流程来开发新的语言识别技术,时至今日,其识别精确度早已傲视群雄,充分证明了其坚持不懈的价值。

Vision Objects 支持全球使用最广泛的语言:

MyScript 手写识别技术的核心

各种样式的手写

Vision Objects 的技术通过采用全球使用最广泛的符号系统来识别各类书写样式,这些符号系统包括:阿拉伯语、中文、西里尔语、梵语、希腊语、希伯来语、日语、朝鲜语、拉丁语、泰米尔语和泰语。

为了便于识别,首先需要将手写内容分节为字符、单词和句子。具体分节方式因书写样式而异。我们可以识别三种不同样式的手写内容:

MyScript supported handwriting styles

  • 孤立字符:每个字符单独写在方框区域中,连续字符之间的分节明确清晰。这通常应用于对识别准确性要求较高的表单处理。
  • 手写印刷体字符:字母之间无接触,不连写。分段不明确,需要通过软件进行计算。

自然手写是手写印刷体和草书手写体的混合形式,有些字母(或笔划)是相连的,有些是不相连的:

Natural handwriting

在某些语言中,比如中文,自然手写体看上去与标准手写体完全不同。处理这些书写样式的差异是 MyScript 识别程序的真正挑战:

Chinese cursive_ Vision Objects_MyScript
中文字符中的正楷(左)和行书(右)。

语言特点:

识别程序会将大量语言特点考虑在内:

  • 字符:一些语言基于符号系统(如英语、希腊语、西里尔语),而其他语言则使用表意字(如中文和日语)
  • 书写方向:语言可以不同的方向书写(从左至右,从右至左)


书写样式差异

手写识别中的主要挑战是处理各种不同的书写样式,包括书写倾斜和图形。

此外,手写样式因国家/地区而异。例如,许多国家都使用英语(英国、美国、加拿大等),但词汇和书写样式可能会因地区不同而存在差异。


手写文字分析

为了管理语言的复杂性,MyScript 将大量语言信息考虑在内:

  • 词典:缩小识别范围,从而提高准确性。
  • DataFormats:描述特定信息(例如电话号码、电子邮件地址等)的预期格式。
  • 语言模型:为识别引擎赋予"语言智能"。它们描述常用语的组成方式以及多个单词同时出现的可能性。

MyScript 语言功能

为了处理手写样式的差异,Vision Objects 针对各种不同语言和国家/地区收集了数千名本地人书写的手写样本。这些手写样本用于训练 MyScript 手写识别引擎。

为了确保在各种应用下都能实现最高识别效率,Vision Objects 提供了两类语言资源:

  • MyScript Lingo:是由 54 种语言包构成的集合,可供 MyScript Builder 软件开发工具包使用。

    MyScript Lingo 包含全面的语言资源,比如特定于语言的字符集。它还考虑了书写样式的差异以及语境,以便能够高度准确地识别各类手写内容:从孤立到自然草书书写。

  • MyScript Letra:MyScript Letra 提供了超过 97 种语言的相关资源,并支持识别孤立字符和手写印刷体字符。它并未提供任何高级语言资源或语言模型,内存占用率低于 MyScript Lingo。MyScript Letra 尤其适用于嵌入式设备。

各语言包均包含各自的资源集。在识别过程中,它们由 MyScript Builder 软件开发工具包的不同部分使用。