法律状态公告日
法律状态信息
法律状态
2019-11-12
未缴年费专利权终止 IPC(主分类):G06F3/023 授权公告日:20150909 终止日期:20181122 申请日:20121122
专利权的终止
2015-09-09
授权
授权
2013-03-27
实质审查的生效 IPC(主分类):G06F3/023 申请日:20121122
实质审查的生效
2013-02-27
公开
公开
技术领域
本发明涉及一种中文分词系统及方法,属于计算机领域。
背景技术
目前,公知的分词方法有规则方法与统计方法两种。公知的分词算法往往依赖于庞大的词表或复杂的统计模型,计算复杂度较高。另外,无论是哪种方法,都面临着两大难点,即歧义切分问题和未登录词问题。公知算法在处理上述情况时欠缺智能性,不能对其灵活地处理,在实际应用中,效果不够理想。
字符输入行为,是指中文输入法用户在输入中文字符的过程中,输入中文字符所对应的西文字符编码的输入行为。超输入行为是指上述过程中的非字符输入行为,如通过上下翻页键查看输入法候选框中的候选字词、通过数字键选择候选字词、通过按空格键提交候选框中字符至编辑区等。超输入行为的重要意义在现有输入法中被忽略。
人工录入是将文字信息输入计算机的主要方式。在使用中文输入法输入汉字时,用户往往会把成词的字符串作为一个单元一次性输入。例如在输入语句“我吃了一个鸡蛋”时,某用户输入的动作为“我吃了/一个/鸡蛋/”。可见,用户在连续输入中文字符串时的输入行为,体现了用户语言思维的运作过程,并可以转化为粗糙分词的结果。中文输入法的用户群中的成员无一不在自发地贡献着分词的启发式信息,这种群体智慧应予以记录。然而,公知的中文输入技术缺少记录上述关键信息的机制,造成了大量的有价值的群体智慧的流失;公知的中文字符编码只是将文字信息进行编码,而没有考虑到将有利于中文信息处理的其他信息存储起来。本发明通过捕获用户的超输入行为并将其与文字信息一同编码存储起来,以供中文分词及其他信息处理任务参考。
发明内容
本发明的目的,是为改进中文分词技术,提供一种基于输入法的超输入动作抓录系统及抓录方法。
超输入动作抓录系统,包括:
用于输入SAC兼容信息的输入装置;
用于捕获所输入字符的装置;
用于捕获所输入非字符的装置;
用于将所捕获的输入字符进行字符编码的装置;
用于将所捕获的输入非字符进行SAC编码的装置;
使用分词附加码编码技术分别将字符编码和SAC编码进行整合,形成附带分词附加码的文本编码信息TwSAC的装置。
超输入动作抓录方法,包括:
用于输入SAC兼容信息的输入步骤;
用于捕获所输入字符的步骤;
用于捕获所输入非字符的步骤;
用于将所捕获的输入字符进行字符编码的步骤;
用于将所捕获的输入非字符进行SAC编码的步骤;
使用分词附加码编码技术分别将字符编码和SAC编码进行整合,形成附带分词附加码的文本编码信息TwSAC的步骤。
记录用户的超输入行为的编码称为分词附加码,又称SAC(Segmentation AttachingCode)。附带分词附加码的文本编码信息称为TwSAC(Text with SAC)。SAC的位置以及其记录的信息的形式不唯一。SAC可与汉字编码相邻出现,也可单独出现,只要满足与汉字字符匹配关系即可。分词附加码的码长及其记录的内容也可根据实际需求灵活变动。
随着互联网在国内的普及与统计自然语言处理的发展,互联网公司和软件公司提供着文字处理、搜索引擎、语音输入和机器翻译等各种服务,中文分词作为其中的一个核心技术也开始成为热门;同时,新型拼音输入法结合了搜索引擎及其它先进的信息处理技术,引发了中文输入法界的革命。但在这些输入法使用了大量中文信息处理技术来提高输入法的输入效率,注重用户体验的同时,却并没有做出有助于中文信息处理的改进。这一点可以解释为输入法开发者没有动机这样做。换言之是因为输入法开发者所要做的是满足广大中文使用者的输入需求,而不是为中文信息处理研究者提供研究材料。
本发明动用了逆向思维,即使用中文输入法本身来改进中文信息处理(中文分词)。现有的输入法关注的仅仅只是用户想要输入的文字,而并不关心这些文字信息在输入时是否具有中文信息处理方面的应用价值。据我们对大量用户输入行为的观察和归纳,人们在输入中文时会伴随着下意识的分词行为。由于人们使用输入法的行为模式已经固化,下意识分词等这些有潜在价值的信息有待捕捉和挖掘。
长期以来,人们对中文输入法的功能的认识仅仅局限于将汉字输入机器中,即将人类认识的文字信息转储为机器编码,本发明克服了本领域的技术偏见,在录入用户输入的信息时,不但捕获输入的字符信息、还捕获输入的非字符信息,并将输入的字符和非字符信息进行编码整合,形成带有分词附加码的文本编码信息。本发明获得的带有分词附加码的文本编码信息中存在超输入信息编码,这些编码信息在分词过程中起到了积极的作用,进而提高分词的效率和准确率。
本发明可以更好地解决歧义切分问题和未登录词问题,从而进一步提高现有中文分词系统性能,进而提高多种中文信息处理应用的性能。以下从信息检索和机器翻译两方面举例说明。
在信息检索方面,若某用户使用某网页搜索引擎对关键字“普及性教育”进行检索。以下是部分检索结果:
潮州市中学生性教育普及调查
高中学生舞蹈普及性教育教学初探-舞蹈学习-中国舞蹈网 ①
高校普及性教育医科学生同样缺乏性知识(图)_新闻中心_新浪网 ②
中小学普及性教育涉及6万余名学生-校园频道-中国教育在线
美对青少年提供性爱图解普及性教育引争议-和路教育—东莞时间网
我国大众钢琴普及性教育调查研究—《北方文学·下半月》—2012年...
《金瓶梅》文化街:“新婚鸳鸯楼”普及性教育-搜狐读书
普及性知识青少年性教育--中华网健康频道——中国最大职业人士门户
普及性教育关爱未成年未成年女性堕胎调查-《大家健康》2010年第...
今秋:中学普及性教育课程不乏性知识
色情书刊上了解性知识高校普及性教育刻不容缓
文字作品_第二届“性商杯”全国性教育公益作品征集大赛
四川人大代表提理性建议扫黄不如普及性教育-视频-在线观看-激动...
【图】婚前守贞比争论更重要的,是普及性教育_成都女报第148期A...
装修知识普及性教育——标题要长家居装修-宽带山社区-华东...
从上述检索结果可以看出对于歧义结构“普及性教育”,搜索引擎同时提供了“普及性/教育”(如①)和“普及/性教育”(如②)两种结果。但用户多数情况下只希望检索到其中一种结果。
又若某用户使用某网页搜索引擎对人名“王超越”进行检索,以下为部分检索结果:
王超越的微博_腾讯微博
王超越有多少王超越,王超越同名同姓-人人网校内
王超越的空间-安康家园
王超越_新浪博客
科比领跑全联盟助攻王超越麦蒂_网易新闻中心
谁知道新任董事长王超越为何许人?有何背景?_机器人(300024)股吧...
全明星15日看点-扣篮王超越乔丹?佩贾三夺三分王?历史资料
游戏王超越时空的羁绊全集在线观看-高清日本动画片中文国语版-船...
《游戏王超越时空的牵绊OVA》QVOD快拨全集高清在线看,dvd高清下...
老虎滩蹦极王超越在线观看-酷6视频
《游戏王超越时空的牵绊OVA》[2011]_百度影音、Qvod快播高清_95影...
瓜帅坐等巴萨王超越传奇梅西:胜马竞不特别_体育_新民网
王超越的转帖-开心网转帖-开心网
晨露牌克忧王超越了所有的中药克忧王用了之后好吗|北京列表网
切尔西一代妖王超越佐拉又如何这样踢即是传奇也该卖-切尔西,德罗...
姚明生涯荣誉:8次入选全明星曾当票王超越乔丹_篮球_龙虎网
正在高清播放-游戏王超越时空的牵绊OVA全集百度影音--猪猪影院
从上述检索结果可以看出,对于命名实体“王超越”,返回结果中除了头几个自动生成的微博、博客、论坛等链接外,大量检索结果都是出现“王超越”字样但未将其作为人名对待的网页内容。而出现人名“王超越”这样的网页才是用户真正关注的信息。
在SAC兼容的搜索引擎中,用户的超输入也会作为欲检索参考的一部分。若搜索引擎兼容SAC,可在搜索引擎中增设“按用户输入的分词结果搜索”选项,这样,在上面的例子中,若用户一次性输入“王超越”,则搜索引擎便会将其识别为人名,而不会对其继续分词。同理,在检索“普及性教育”时,也可按照用户人工分词的方式进行检索,使得检索结果趋于统一。
在机器翻译方面,现分别考察两种主流在线翻译系统对语句“研究所有的东西”的翻译效果。两者的翻译结果分别为“There is something of the institute”和“Study allthe things”,根据两种翻译可以推知,两者的理解分别是“研究所/有的/东西”和“研究/所有的/东西”。公知的在线机器翻译系统不仅对中文歧义结构没有统一的处理办法,而且也未提供让用户参与消歧的接口。本发明可以给予用户自行分词的主动权,在相信大多数用户具有分词积极性的前提下,捕捉并记录用户的超输入行为,在歧义结构中将其作为消除歧义的重要参考。
附图说明
图1为超输入动作抓录方法的方法流程图。
具体实施方式
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述的超输入动作抓录系统,包括:
用于输入SAC兼容信息的输入装置;
用于捕获所输入字符的装置;
用于捕获所输入非字符的装置;
用于将所捕获的输入字符进行字符编码的装置;
用于将所捕获的输入非字符进行SAC编码的装置;
使用分词附加码编码技术分别将字符编码和SAC编码进行整合,形成附带分词附加码的文本编码信息TwSAC的装置。
具体实施方式二:下面结合图1说明本实施方式,本实施方式所述的超输入动作抓录方法,包括:
用于输入SAC兼容信息的输入步骤;
用于捕获所输入字符的步骤;
用于捕获所输入非字符的步骤;
用于将所捕获的输入字符进行字符编码的步骤;
用于将所捕获的输入非字符进行SAC编码的步骤;
使用分词附加码编码技术分别将字符编码和SAC编码进行整合,形成附带分词附加码的文本编码信息TwSAC的步骤。
具体实施方式三:下面结合图1说明本实施方式,本实施方式是应用具体实施方式一以及具体实施方式二的具体实施例;
方案1:以“我吃了一个鸡蛋”的输入为例,若使用公知编码方案GBK见下表:
先假设每一个汉字后都跟随着一个SAC,均由一字节构成,默认编码为“70”。规定超输入行为“通过按空格键提交候选框中字符串至编辑区”的SAC为“7F”,某一用户的输入动作为“我吃了/一个/鸡蛋”,“/”表示用户输入时有按空格键提交候选框中字符串至编辑区。若此字符串采用此方案,则其TwSAC见下表:
方案2:中文文本的字符编码方案为Unicode。SAC附加在整个文件末端。文件中存有字符串“要努力学习计算理论”。用户的输入动作为“要/努力/学习/计算理论”。规定使用字节FF表示字符编码与SAC的分界点。规定使用字节00、01、02分别表示位于一次性输入的字符串的头、中、尾的字,使用字节03表示一次性输入的单字。若此字符串采用此方案,则其TwSAC见下表:
本实例是假设用户的输入习惯具有分词积极性的基础上的,即将成词或大体成词的字符串一次性输入。如果用户的输入不具有分词积极性,而是整句输入,也并不会使问题变得复杂。因为对于整句输入,候选框之所以能较快显示出用户关注的字符串,是因为输入法引擎内部在选择候选字符串时,也动用了某些简单的分词手段,例如最大长度匹配法等,尽管这些手段的分词精度并不高,但仍能在一定程度上指导分词。结合输入法内置的用户自定义词库,还可以对未登录词做出准确的识别。退一步讲,假设用户的非字符输入行为对于分词完全没有参考价值,也可以动用其他公知分词技术进行处理,得出一个精确率不低于公知分词技术的结果。另外,如果用户在输入时将成词字符串也拆开,或在一次输入结束后又进行了删除、剪切、复制等操作,可能就需要去噪处理。对于带有噪声的TwSAC的分词问题,需要首先使用特定算法(依赖于SAC的具体编码方案)对词边界进行识别,然后用其他公知分词技术对边界内部字符串进行处理。
本发明不局限于上述实施方式,还可以是上述各实施方式中所述技术特征的合理组合。
机译: 在移动终端的屏幕上输入备忘录的方法,以及在同一终端上执行移动终端的备忘录,特别是用于在视频屏幕上方显示用户备忘录的方法
机译: 备忘录同步系统,移动系统以及为了有效地提供备忘录服务而同步备忘录数据的备忘录同步方法
机译: 抓录设备