2018年9月18日,计算机学院蒙古文信息处理技术重点实验室授权了一项发明专利“一种蒙古文自动校正方法”,专利号为:ZL201610706212.0,发明人:飞龙副教授,路敏(博士生,导师为高光来教授),高光来教授。
现有的蒙古文文本资源中,存在大量的显现形式相同,但编码不正确的蒙古文单词。这严重制约着蒙古文信息化的发展。本发明提供了一种高效的蒙古文自动校正方法。利用该专利技术,实验室研发了蒙古文自动校正系统(使用网址为:http://mc.mglip.com:8080),该系统主要针对单词的拼写错误,控制符运用错误,格的错误使用,同形异音词的错误使用等四个方面的错误进行校正。蒙古文校正是蒙古文信息处理相关研究如蒙古语语音识别、语音合成、蒙古文信息检索、蒙古文OCR识别等技术的基础工作。该系统自从2016年8月正式使用以来目前已经应用于内蒙古出版集团,内蒙古日报社等单位。
本发明专利主要技术如下: 1)提出基于中间码的校正方法。针对蒙古文编码的特点,即一个名义字符对应多种键盘输入,提出将单词转换成中间码过渡表示。 2)提出基于词典和规则的集内词转换方法。 基于蒙古文构词规则和格的使用规则,结合词典对集内词进行校正。 3)提出基于语言模型对同形异音词进行校正的方法。