法律状态公告日
法律状态信息
法律状态
2023-10-31
专利权的转移 IPC(主分类):G06F17/27 专利号:ZL2015109177904 登记生效日:20231016 变更事项:专利权人 变更前权利人:江苏科技大学 变更后权利人:苏州定一智能技术有限公司 变更事项:地址 变更前权利人:212003 江苏省镇江市梦溪路2号 变更后权利人:215600 江苏省苏州市张家港市南丰镇兴园路3号1幢2楼
专利申请权、专利权的转移
2018-05-22
授权
授权
2018-01-02
著录事项变更 IPC(主分类):G06F17/27 变更前: 变更后: 申请日:20151210
著录事项变更
2016-06-08
实质审查的生效 IPC(主分类):G06F17/27 申请日:20151210
实质审查的生效
2016-05-11
公开
公开
技术领域
本发明涉及人工智能计算机领域中的自然语言处理,特别涉及中文文本自动校对领域,具体涉及一种基于汉字混淆集的错字词知识生成方法。
背景技术
随着信息处理技术和互联网的高速发展,传统的文本工作几乎全部被计算机所取代,电子书、电子报纸、电子邮件、办公文件等文本电子出版物不断涌现,文本中的错误也越来越多。目前大多采用人工校对的方法,校对工作单调,劳动强度大,效率低,人工校对的方式已经无法满足文本校对的需求,因此研究自动文本校对对于理论和应用都具有很深远的意义。
实现中文文本自动校对,需要大量的知识与资源,其中错字词知识是一种非常重要的知识,能有效的发现中文文本的错误,并且对其进行校对。人工收集文本中的错字词知识是一种非常繁重的工作,因此需要自动构建错字词知识。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明中将错字词知识定义为错字词与其对应的正确词关联所形成的二元组,提供一种基于汉字混淆集的错字词知识生成方法,达到提高中文文本自动校对的纠错质量和纠错速度的效果。
技术方案:为实现上述目的,本发明的基于汉字混淆集的错字词知识生成方法,包括以下步骤:
(1)以汉语词典中某一多字词为正确词,根据汉字混淆集获取所述正确词的所有混淆词,所述混淆词的集合为混淆词集合;
(2)根据所述汉语词典和语料库对所述混淆词集合进行剪枝得到初步过滤的混淆词集合;
(3)根据语料库对所述初步过滤的混淆词集合中的混淆词进行分词得到分词项,并根据分词项利用预先设定的错词判断规则判断混淆词是否为错词,若为错词则保留,并和所述正确词进行关联形成二元组;
将所述汉语词典中的每个词语均按照步骤(1)至(3)中的操作关联每个词语与其混淆词,最终形成错字词知识。
其中,所述正确词包含若干个汉字,步骤(1)中根据汉字混淆集获取所述正确词的所有混淆词包括以下步骤:
依次取所述正确词中的一个汉字,从所述汉字混淆集中找出该汉字的混淆集合,依次取所述混淆集合中的一个汉字与该汉字进行替换得到混淆词;
遍历所述正确词中的汉字,并遍历每个汉字的混淆集合便得到所述正确词的所有混淆词。
其中,步骤(2)中根据语料库对所述混淆词集合进行剪枝,包括以下步骤:
1)若某一混淆词为所述汉语词典中的词,则对该混淆词进行剪枝;
2)若该混淆词在语料统计中出现的频次大于所述正确词在语料统计中出现的频次,则对该混淆词进行剪枝;
所述剪枝是指从所述混淆词集合中去除该混淆词。
其中,步骤(3)中所述预先设定的混淆词过滤规则与分词项的长度相关,具体如下:
若分词项长度为2,则所述剪枝后的混淆词集合中的某一混淆词Wc被分为所述汉语词典中的两个词W1,W2,则所述错词判断规则为:
若两个词W1,W2在所述语料统计中共同出现的频次Freq(W1W2)=0,则认为该混淆词Wc是错字词;
若两个词W1,W2在所述语料统计中共同出现的频次Freq(W1W2)>0,则认为该混淆词Wc不是错字词,对该混淆词Wc进行剪枝。
进一步地,若分词项长度为3,则所述剪枝后的混淆词集合中的某一混淆词Wc被分为所述汉语词典中的三个词W1,W2,W3,则所述错词判断规则为:
若三个词W1,W2,W3在所述语料统计中共同出现的频次Freq(W1W2W3)>0,则认为该混淆词Wc不是错字词,对该混淆词Wc进行剪枝;
若三个词W1,W2,W3在所述语料统计中共同出现的频次Freq(W1W2W3)=0,但是词W1,W2在所述语料统计中共同出现的频次Freq(W1W2)>a或者词W2,W3在所述语料统计中共同出现的频次Freq(W2W3)>a,则认为该混淆词Wc不是错字词,对该混淆词Wc进行剪枝;
若三个词W1,W2,W3在所述语料统计中共同出现的频次Freq(W1W2W3)=0,但是词W1,W2在所述语料统计中共同出现的频次Freq(W1W2)>0并且词W2,W3在所述语料统计中共同出现的频次Freq(W2W3)>0,则认为该混淆词Wc不是错字词,对该混淆词Wc进行剪枝;
否则,认为该混淆词Wc是错字词;其中a是预先设定的阈值。
进一步地,若分词项长度为4,则所述剪枝后的混淆词集合中的某一混淆词Wc被分为所述汉语词典中的四个词W1,W2,W3,W4,则所述错词判断规则为:
若词W1,W2,W3在所述语料统计中共同出现的频次Freq(W1W2W3)>0,且若词W2,W3,W4在所述语料统计中共同出现的频次Freq(W2W3W4)>0,则认为该混淆词Wc不是错字词,对该混淆词Wc进行剪枝;
若词W1,W2,W3在所述语料统计中共同出现的频次Freq(W1W2W3)>0,且词W3,W4在所述语料统计中共同出现的频次Freq(W3W4)>a,则认为该混淆词Wc不是错字词,对该混淆词Wc进行剪枝;
若词W2,W3,W4在所述语料统计中共同出现的频次Freq(W2W3W4)>0,且词W1,W2在所述语料统计中共同出现的频次Freq(W1W2)>a,则认为该混淆词Wc不是错字词,对该混淆词Wc进行剪枝;
若词W1,W2在所述语料统计中共同出现的频次Freq(W1W2)>a,且词W2,W3在所述语料统计中共同出现的频次Freq(W2W3)>a,且词W3,W4在所述语料统计中共同出现的频次Freq(W3W4)>a,则认为该混淆词Wc不是错字词,对该混淆词Wc进行剪枝;
否则,认为该混淆词Wc是错字词。
进一步地,若分词项长度大于4,则所述剪枝后的混淆词集合中的某一混淆词Wc被分为k个所述汉语词典中的词,则所述错词判断规则为:
若所有相邻的两个词在所述语料中的共同出现的频次都大于0,则认为该混淆词Wc不是错字词,对该混淆词Wc进行剪枝;
否则,认为该混淆词Wc是错字词。
有益效果:本发明方法首先利用汉语词典和汉字混淆集生成混淆词集合,再利用语料对混淆词集合进行剪枝,完成初步过滤,然后对剪枝后的混淆词集合中的混淆词进行分词,根据预先设置的错字词判断规则利用统计知识对混淆词进行验证,最终所生成错字词知识,既保证了错字词的全面性,同时考虑语料中该词存在的概率对混淆词进行第二次剪枝处理,避免将部分本来合理存在的字词误判为错字词,保证了错字词判断的精确性。实验表明,基于本发明方法所生产的错字词知识对汉语文本进行校对,召回率达到86.2%,精度达到70.6%,具有较高的有效性和准确性。
附图说明
图1错字词构造流程图;
图2混淆词构造示例;
图3错字词判断流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,本发明提出的一种基于汉字混淆集的错字词知识生成方法是基于汉字混淆集和汉语词典生成混淆词集合,对生成的混淆词进行过滤和剪枝,最后利用统计知识及规则对混淆词进行验证,从而生成错字词知识。该方法包括以下步骤:
步骤1:利用汉语词典和汉字混淆集生成混淆词集合,混淆词集合是混淆词组成的集合。
汉字混淆集是指,对于一个汉字来说,与该汉字读音相似或形相似的汉字组成的集合,本实施例中采用的汉字混淆集是采用文献《汉字种子混淆集的构建方法研究》(计算机科学,2014,第8期(08):229-232)中所介绍的构建方法生成的。由于一个多字词包含多个汉字,因此利用每个汉字的混淆集中的汉字替换,生成混淆词,。根据统计,中文词发生错误,一般都是词中的一个汉字发生错误,因此本实施在生成混淆词的汉字替换时,每次只替换词中的一个汉字。
混淆词集合的构建过程,的具体步骤如下:
步骤1.1读入汉语词典,依次取出词典中的多字词W(W的长度大于等于2),假设W=C1...Ci...Cn,其中Ci是汉字,n>=2;
步骤1.2读入汉字混淆集,取出W中的每个汉字Ci的汉字混淆集CSet(Ci)={Ci1,Ci2,...Cik},用Ci的汉字混淆集中的每个混淆汉字Cij(1<=j<=k)替换Ci,得到W的混淆词
步骤2:根据汉语词典和语料库对上述混淆词集合进行剪枝得到初步过滤的混淆词集合。
通过汉语词典和汉字混淆集会生成大量的混淆词集合,而集合中有些混淆词显然是不合理的错字词(例如:上例中的词串“点拨”是一个合理的表达),在实际的文本校对应用中会导致误判,因此需要对生成的混淆词集合进行剪枝,过滤一些不合理的混淆词。
步骤2.1如果替换后的混淆词Wc是汉语词典中的词,则对该混淆词Wc进行剪枝;
步骤2.2如果Freq(Wc)>=Freq(W),则对该混淆词Wc进行剪枝,其中Freq(X):表示词串X在语料统计中出现的频次;
步骤3:根据语料库对经过初步过滤的混淆词集合中的混淆词进行分词得到分词项,并根据分词项利用预先设定的错词判断规则判断混淆词是否为错词,若为错词则保留,并和所述正确词进行关联形成二元组。
对生成的混淆词进行正向最大匹配分词,然后利用统计知识对混淆词进行验证,生成错字词知识。
错字词知识是错字词与其对应的正确词组成的二元组,其具有以下结构:
(W,We);
其中We表示错字词,W表示We对应的正确的词。
步骤3.1对步骤2中过滤后的混淆词进行正向最大匹配分词;
步骤3.2根据对混淆词Wc分词结果中分词项的长度,对混淆词Wc进行统计验证,过滤不合理的混淆词,从而生成错字词知识;
对Wc分词后,会出现以下几种情况:
情形1:Wc分词后,得到的分词项长度为2,即:Wc=W1W2,其中W1,W2是汉语词典中的词,例如:W=“点播”,Wc=“点拨”,W1=“点”,W2=“拨”,做如下判断:
1-1)如果Freq(W1W2)=0,则Wc认为是一个错字词,则W是其对应可能正确的词,则形成二元组(W,Wc),加入到错字词知识库中;
1-2)如果Freq(W1W2)>0,则Wc是合理的中文词,不是错字词,对Wc进行剪枝;
情形2:Wc分词后,得到的分词项长度为3,即:Wc=W1W2W3,其中W1,W2,W3是汉语词典中的词,例如:W=“万花筒”,Wc=“万花同”,W1=“万”,W2=“花”,W3=“同”,做如下判断:
2-1)如果Freq(W1W2W3)>0,则Wc是合理的中文词,不是错字词,对Wc进行剪枝;
2-2)如果Freq(W1W2W3)=0,但是Freq(W1W2)>a或者Freq(W2W3)>a,则Wc是合理的中文串,对Wc进行剪枝。
2-3)如果Freq(W1W2W3)=0,但是Freq(W1W2)>0并且Freq(W2W3)>0,则Wc是合理的中文串,对Wc进行剪枝。
2-4)否则,形成二元组(W,Wc),加入到错字词知识库中;
情形3:Wc分词后,得到的分词项长度为4,即:Wc=W1W2W3W4,其中W1,W2,W3,W4是汉语词典中的词,例如:W=“爱屋及乌”,Wc=“爱屋及鸟”,W1=“爱”,W2=“无”,W3=“及”,W4=“鸟”,做如下判断:
3-1)如果Freq(W1W2W3)>0,并且Freq(W2W3W4)>0,则认为Wc是合理的中文串,对其进行剪枝;
3-2)如果Freq(W1W2W3)>0并且Freq(W3W4)>a,则认为Wc是合理的中文串,对其进行剪枝。
3-3)如果Freq(W2W3W4)>0并且Freq(W1W2)>a,则认为Wc是合理的中文串,对其进行剪枝。
3-4)如果Freq(W1W2)>a&&Freq(W2W3)>a&&Freq(W3W4)>a,则认为Wc是合理的中文串,对其进行剪枝。
3-5)否则,形成二元组(W,Wc),加入到错字词知识库中;
上述a是预先设定的阈值,在本实施例中a=5。
情形4:Wc分词后,得到的分词项长度大于4,即:k>4,Wc=W1W2...Wk其中W1,W2,...,Wk是汉语词典中的词,例如:W=“防患于未然”,Wc=“防患于末然”,W1=“防”,W2=“患”,W3=“于”,W4=“末”,W4=“然”,做如下判断:
4-1)如果所有相邻的两个词的共现都大于0,即:Freq(W1W2)>0&&Freq(W2W3)>0&&...&&Freq(Wk-1Wk)>0,则认为Wc是以合理的中文串,对其进行剪枝。
4-2)否则,否则,形成二元组(W,Wc),加入到错字词知识库中。
本实施例中上述汉语词典的大小是50493,利用本发明提供的基于汉字混淆集的错字词知识生成方法获得151317对错字词知识。为了验证生成的错字词知识的在汉语错别字识别中的有效性,本实施例采用2万行句子的问答系统日志语料,人工对语料中的汉字多字词中的别字错误进行标注,共1312处;利用本案生成的错字词知识建立一自动识别错别字识别实验系统,系统利用简单的错字词匹配算法,如果分词后的句子中出现错字词知识库中的错字词,则认为是一个错别字,其错字词知识中对应的正确的词即为其修改意见。实验系统自动校对的方法召回率达到86.2%,精度达到70.6%。实验表明本案生成的错字词知识能用于汉语文本自动校对中,达到了实际应用的需求,具有较高的有效性和准确性。
在没有特别声明的情况下,本发明中汉语词典中的词包括:单字词和多字词,单字词是指该词中包括一个汉字,多字词是指该词中包括至少两个汉字。
以上实施列仅是本发明的较佳实施例,对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的任何修改、等同替换、改进等,均落在本发明的保护范围内。
机译: 一种方法,用于生成密码术中使用的Cifratore,该方法基于可能要最大程度地混淆的信息,该混淆可以在要保密的消息的字母和数字之间实现。
机译: 基于混淆集的统计上下文敏感散点校正方法和系统
机译: 使用基于可混淆集的概率语言模型进行语音识别的方法和装置