首页> 中国专利> 一种基于汉字混淆集的错字词知识生成方法

一种基于汉字混淆集的错字词知识生成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于汉字混淆集的错字词知识生成方法，该方法首先利用正确词词典和汉字混淆集生成混淆词集合；通过语料和规则对生成的混淆词集合进行剪枝完成初步过滤；再采用正向最大匹配分词对初步过滤完后的混淆词集合中的混淆词进行分词，根据预先设置的错字词判断规则利用统计知识对混淆词进行验证，最终生成错字词知识。本发明方法解决了现有的人工校对效率低且劳动量大的问题，利用本发明方法所得到的错字词知识进行自动校对和纠错，提高了中文文本自动校对的纠错质量和纠错速度。

著录项

公开/公告号CN105573979A

专利类型发明专利
公开/公告日2016-05-11

原文格式PDF
申请/专利权人江苏科技大学;
展开▼

申请/专利号CN201510917790.4
发明设计人顾德之;刘亮亮;吴健康;刘海波;张再跃;张晓如;
展开▼

申请日2015-12-10
分类号G06F17/27(20060101);
代理机构南京苏高专利商标事务所(普通合伙);
代理人许丹丹
地址 212003 江苏省镇江市梦溪路2号
入库时间 2023-12-18 15:12:16

法律信息

法律状态公告日

法律状态信息

法律状态
2023-10-31

专利权的转移 IPC(主分类):G06F17/27 专利号:ZL2015109177904 登记生效日:20231016 变更事项:专利权人变更前权利人:江苏科技大学变更后权利人:苏州定一智能技术有限公司变更事项:地址变更前权利人:212003 江苏省镇江市梦溪路2号变更后权利人:215600 江苏省苏州市张家港市南丰镇兴园路3号1幢2楼

专利申请权、专利权的转移
2018-05-22

授权

授权
2018-01-02

著录事项变更 IPC(主分类):G06F17/27 变更前: 变更后: 申请日:20151210

著录事项变更
2016-06-08

实质审查的生效 IPC(主分类):G06F17/27 申请日:20151210

实质审查的生效
2016-05-11

公开

公开

说明书

技术领域

本发明涉及人工智能计算机领域中的自然语言处理，特别涉及中文文本自动校对领域，具体涉及一种基于汉字混淆集的错字词知识生成方法。

背景技术

随着信息处理技术和互联网的高速发展，传统的文本工作几乎全部被计算机所取代，电子书、电子报纸、电子邮件、办公文件等文本电子出版物不断涌现，文本中的错误也越来越多。目前大多采用人工校对的方法，校对工作单调，劳动强度大，效率低，人工校对的方式已经无法满足文本校对的需求，因此研究自动文本校对对于理论和应用都具有很深远的意义。

实现中文文本自动校对，需要大量的知识与资源，其中错字词知识是一种非常重要的知识，能有效的发现中文文本的错误，并且对其进行校对。人工收集文本中的错字词知识是一种非常繁重的工作，因此需要自动构建错字词知识。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明中将错字词知识定义为错字词与其对应的正确词关联所形成的二元组，提供一种基于汉字混淆集的错字词知识生成方法，达到提高中文文本自动校对的纠错质量和纠错速度的效果。

技术方案：为实现上述目的，本发明的基于汉字混淆集的错字词知识生成方法，包括以下步骤：

(1)以汉语词典中某一多字词为正确词，根据汉字混淆集获取所述正确词的所有混淆词，所述混淆词的集合为混淆词集合；

(2)根据所述汉语词典和语料库对所述混淆词集合进行剪枝得到初步过滤的混淆词集合；

(3)根据语料库对所述初步过滤的混淆词集合中的混淆词进行分词得到分词项，并根据分词项利用预先设定的错词判断规则判断混淆词是否为错词，若为错词则保留，并和所述正确词进行关联形成二元组；

将所述汉语词典中的每个词语均按照步骤(1)至(3)中的操作关联每个词语与其混淆词，最终形成错字词知识。

其中，所述正确词包含若干个汉字，步骤(1)中根据汉字混淆集获取所述正确词的所有混淆词包括以下步骤：

依次取所述正确词中的一个汉字，从所述汉字混淆集中找出该汉字的混淆集合，依次取所述混淆集合中的一个汉字与该汉字进行替换得到混淆词；

遍历所述正确词中的汉字，并遍历每个汉字的混淆集合便得到所述正确词的所有混淆词。

其中，步骤(2)中根据语料库对所述混淆词集合进行剪枝，包括以下步骤：

1)若某一混淆词为所述汉语词典中的词，则对该混淆词进行剪枝；

2)若该混淆词在语料统计中出现的频次大于所述正确词在语料统计中出现的频次，则对该混淆词进行剪枝；

所述剪枝是指从所述混淆词集合中去除该混淆词。

其中，步骤(3)中所述预先设定的混淆词过滤规则与分词项的长度相关，具体如下：

若分词项长度为2，则所述剪枝后的混淆词集合中的某一混淆词W_c被分为所述汉语词典中的两个词W₁,W₂，则所述错词判断规则为：

若两个词W₁,W₂在所述语料统计中共同出现的频次Freq(W₁W₂)＝0，则认为该混淆词W_c是错字词；

若两个词W₁,W₂在所述语料统计中共同出现的频次Freq(W₁W₂)＞0,则认为该混淆词W_c不是错字词，对该混淆词W_c进行剪枝。

进一步地，若分词项长度为3，则所述剪枝后的混淆词集合中的某一混淆词W_c被分为所述汉语词典中的三个词W₁,W₂,W₃，则所述错词判断规则为：

若三个词W₁,W₂,W₃在所述语料统计中共同出现的频次Freq(W₁W₂W₃)＞0，则认为该混淆词W_c不是错字词，对该混淆词W_c进行剪枝；

若三个词W₁,W₂,W₃在所述语料统计中共同出现的频次Freq(W₁W₂W₃)＝0，但是词W₁,W₂在所述语料统计中共同出现的频次Freq(W₁W₂)＞a或者词W₂,W₃在所述语料统计中共同出现的频次Freq(W₂W₃)＞a，则认为该混淆词W_c不是错字词，对该混淆词W_c进行剪枝；

若三个词W₁,W₂,W₃在所述语料统计中共同出现的频次Freq(W₁W₂W₃)＝0，但是词W₁,W₂在所述语料统计中共同出现的频次Freq(W₁W₂)＞0并且词W₂,W₃在所述语料统计中共同出现的频次Freq(W₂W₃)＞0，则认为该混淆词W_c不是错字词，对该混淆词W_c进行剪枝；

否则，认为该混淆词W_c是错字词；其中a是预先设定的阈值。

进一步地，若分词项长度为4，则所述剪枝后的混淆词集合中的某一混淆词W_c被分为所述汉语词典中的四个词W₁,W₂,W₃,W₄，则所述错词判断规则为：

若词W₁,W₂,W₃在所述语料统计中共同出现的频次Freq(W₁W₂W₃)＞0，且若词W₂,W₃,W₄在所述语料统计中共同出现的频次Freq(W₂W₃W₄)＞0，则认为该混淆词W_c不是错字词，对该混淆词W_c进行剪枝；

若词W₁,W₂,W₃在所述语料统计中共同出现的频次Freq(W₁W₂W₃)＞0，且词W₃,W₄在所述语料统计中共同出现的频次Freq(W₃W₄)＞a，则认为该混淆词W_c不是错字词，对该混淆词W_c进行剪枝；

若词W₂,W₃,W₄在所述语料统计中共同出现的频次Freq(W₂W₃W₄)＞0，且词W₁,W₂在所述语料统计中共同出现的频次Freq(W₁W₂)＞a，则认为该混淆词W_c不是错字词，对该混淆词W_c进行剪枝；

若词W₁,W₂在所述语料统计中共同出现的频次Freq(W₁W₂)＞a，且词W₂,W₃在所述语料统计中共同出现的频次Freq(W₂W₃)＞a，且词W₃,W₄在所述语料统计中共同出现的频次Freq(W₃W₄)＞a，则认为该混淆词W_c不是错字词，对该混淆词W_c进行剪枝；

否则，认为该混淆词W_c是错字词。

进一步地，若分词项长度大于4，则所述剪枝后的混淆词集合中的某一混淆词W_c被分为k个所述汉语词典中的词，则所述错词判断规则为：

若所有相邻的两个词在所述语料中的共同出现的频次都大于0，则认为该混淆词W_c不是错字词，对该混淆词W_c进行剪枝；

否则，认为该混淆词W_c是错字词。

有益效果：本发明方法首先利用汉语词典和汉字混淆集生成混淆词集合，再利用语料对混淆词集合进行剪枝，完成初步过滤，然后对剪枝后的混淆词集合中的混淆词进行分词，根据预先设置的错字词判断规则利用统计知识对混淆词进行验证，最终所生成错字词知识，既保证了错字词的全面性，同时考虑语料中该词存在的概率对混淆词进行第二次剪枝处理，避免将部分本来合理存在的字词误判为错字词，保证了错字词判断的精确性。实验表明，基于本发明方法所生产的错字词知识对汉语文本进行校对，召回率达到86.2％，精度达到70.6％，具有较高的有效性和准确性。

附图说明

图1错字词构造流程图；

图2混淆词构造示例；

图3错字词判断流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示，本发明提出的一种基于汉字混淆集的错字词知识生成方法是基于汉字混淆集和汉语词典生成混淆词集合，对生成的混淆词进行过滤和剪枝，最后利用统计知识及规则对混淆词进行验证，从而生成错字词知识。该方法包括以下步骤：

步骤1：利用汉语词典和汉字混淆集生成混淆词集合，混淆词集合是混淆词组成的集合。

汉字混淆集是指，对于一个汉字来说，与该汉字读音相似或形相似的汉字组成的集合，本实施例中采用的汉字混淆集是采用文献《汉字种子混淆集的构建方法研究》(计算机科学,2014,第8期(08):229-232)中所介绍的构建方法生成的。由于一个多字词包含多个汉字，因此利用每个汉字的混淆集中的汉字替换，生成混淆词，。根据统计，中文词发生错误，一般都是词中的一个汉字发生错误，因此本实施在生成混淆词的汉字替换时，每次只替换词中的一个汉字。

混淆词集合的构建过程，的具体步骤如下：

步骤1.1读入汉语词典，依次取出词典中的多字词W(W的长度大于等于2)，假设W＝C₁...C_i...C_n，其中C_i是汉字，n>＝2；

步骤1.2读入汉字混淆集，取出W中的每个汉字C_i的汉字混淆集CSet(C_i)＝{C_i¹,C_i²,...C_i^k}，用C_i的汉字混淆集中的每个混淆汉字C_i^j(1<＝j<＝k)替换C_i，得到W的混淆词图2是混淆词构造示例，其中汉字“点”的混淆集CSet(点)＝{店，电，怎}；汉字“播”的混淆集CSet(播)＝{拨，波，博，搏，番,潘},对词“点播”中的汉字进行替换构造混淆词集合为CSet(点播)＝{店播，电播，怎播，点拨，点波，点搏，点番,点潘}。

步骤2：根据汉语词典和语料库对上述混淆词集合进行剪枝得到初步过滤的混淆词集合。

通过汉语词典和汉字混淆集会生成大量的混淆词集合，而集合中有些混淆词显然是不合理的错字词(例如：上例中的词串“点拨”是一个合理的表达)，在实际的文本校对应用中会导致误判，因此需要对生成的混淆词集合进行剪枝，过滤一些不合理的混淆词。

步骤2.1如果替换后的混淆词W_c是汉语词典中的词，则对该混淆词W_c进行剪枝；

步骤2.2如果Freq(W_c)＞＝Freq(W)，则对该混淆词W_c进行剪枝,其中Freq(X)：表示词串X在语料统计中出现的频次；

步骤3：根据语料库对经过初步过滤的混淆词集合中的混淆词进行分词得到分词项，并根据分词项利用预先设定的错词判断规则判断混淆词是否为错词，若为错词则保留，并和所述正确词进行关联形成二元组。

对生成的混淆词进行正向最大匹配分词，然后利用统计知识对混淆词进行验证，生成错字词知识。

错字词知识是错字词与其对应的正确词组成的二元组，其具有以下结构：

(W,W_e)；

其中W_e表示错字词，W表示W_e对应的正确的词。

步骤3.1对步骤2中过滤后的混淆词进行正向最大匹配分词；

步骤3.2根据对混淆词W_c分词结果中分词项的长度，对混淆词W_c进行统计验证，过滤不合理的混淆词，从而生成错字词知识；

对W_c分词后，会出现以下几种情况：

情形1：W_c分词后，得到的分词项长度为2，即：W_c＝W₁W₂，其中W₁,W₂是汉语词典中的词，例如：W＝“点播”，W_c＝“点拨”，W₁＝“点”，W₂＝“拨”，做如下判断：

1-1)如果Freq(W₁W₂)＝0,则W_c认为是一个错字词，则W是其对应可能正确的词，则形成二元组(W,W_c)，加入到错字词知识库中；

1-2)如果Freq(W₁W₂)＞0,则W_c是合理的中文词，不是错字词，对W_c进行剪枝；

情形2：W_c分词后，得到的分词项长度为3，即：W_c＝W₁W₂W₃，其中W₁,W₂,W₃是汉语词典中的词，例如：W＝“万花筒”，W_c＝“万花同”，W₁＝“万”，W₂＝“花”，W₃＝“同”，做如下判断：

2-1)如果Freq(W₁W₂W₃)＞0,则W_c是合理的中文词，不是错字词，对W_c进行剪枝；

2-2)如果Freq(W₁W₂W₃)＝0，但是Freq(W₁W₂)＞a或者Freq(W₂W₃)＞a，则W_c是合理的中文串，对W_c进行剪枝。

2-3)如果Freq(W₁W₂W₃)＝0，但是Freq(W₁W₂)＞0并且Freq(W₂W₃)＞0，则W_c是合理的中文串，对W_c进行剪枝。

2-4)否则，形成二元组(W,W_c)，加入到错字词知识库中；

情形3：W_c分词后，得到的分词项长度为4，即：W_c＝W₁W₂W₃W₄，其中W₁,W₂,W₃，W₄是汉语词典中的词，例如：W＝“爱屋及乌”，W_c＝“爱屋及鸟”，W₁＝“爱”，W₂＝“无”，W₃＝“及”，W₄＝“鸟”，做如下判断：

3-1)如果Freq(W₁W₂W₃)＞0,并且Freq(W₂W₃W₄)＞0，则认为W_c是合理的中文串，对其进行剪枝；

3-2)如果Freq(W₁W₂W₃)＞0并且Freq(W₃W₄)＞a，则认为W_c是合理的中文串，对其进行剪枝。

3-3)如果Freq(W₂W₃W₄)＞0并且Freq(W₁W₂)＞a，则认为W_c是合理的中文串，对其进行剪枝。

3-4)如果Freq(W₁W₂)＞a&&Freq(W₂W₃)＞a&&Freq(W₃W₄)＞a，则认为W_c是合理的中文串，对其进行剪枝。

3-5)否则，形成二元组(W,W_c)，加入到错字词知识库中；

上述a是预先设定的阈值，在本实施例中a＝5。

情形4：W_c分词后，得到的分词项长度大于4，即：k＞4，W_c＝W₁W₂...W_k其中W₁,W₂,...，W_k是汉语词典中的词，例如：W＝“防患于未然”，W_c＝“防患于末然”，W₁＝“防”，W₂＝“患”，W₃＝“于”，W₄＝“末”，W₄＝“然”，做如下判断：

4-1)如果所有相邻的两个词的共现都大于0，即：Freq(W₁W₂)＞0&&Freq(W₂W₃)＞0&&...&&Freq(W_k-1W_k)＞0，则认为W_c是以合理的中文串，对其进行剪枝。

4-2)否则，否则，形成二元组(W,W_c)，加入到错字词知识库中。

本实施例中上述汉语词典的大小是50493，利用本发明提供的基于汉字混淆集的错字词知识生成方法获得151317对错字词知识。为了验证生成的错字词知识的在汉语错别字识别中的有效性，本实施例采用2万行句子的问答系统日志语料，人工对语料中的汉字多字词中的别字错误进行标注，共1312处；利用本案生成的错字词知识建立一自动识别错别字识别实验系统，系统利用简单的错字词匹配算法，如果分词后的句子中出现错字词知识库中的错字词，则认为是一个错别字，其错字词知识中对应的正确的词即为其修改意见。实验系统自动校对的方法召回率达到86.2％，精度达到70.6％。实验表明本案生成的错字词知识能用于汉语文本自动校对中，达到了实际应用的需求，具有较高的有效性和准确性。

在没有特别声明的情况下，本发明中汉语词典中的词包括：单字词和多字词，单字词是指该词中包括一个汉字，多字词是指该词中包括至少两个汉字。

以上实施列仅是本发明的较佳实施例，对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的任何修改、等同替换、改进等，均落在本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于汉字混淆集的错字词知识生成方法 [P] . 中国专利： CN105573979B . 2018.05.22
2. 一种基于汉字混淆集的错字词知识生成方法 [P] . 中国专利： CN105573979A . 2016-05-11
3. method for generating a cifratore for use in cryptography, based on maximum confusion as possible that can be achieved permutando between letters and numbers of a message that it wants to keep secret. [P] . ITTO20090349A1 . 2010-11-05

机译：一种方法，用于生成密码术中使用的Cifratore，该方法基于可能要最大程度地混淆的信息，该混淆可以在要保密的消息的字母和数字之间实现。
4. METHOD AND SYSTEM FOR STATISTICAL CONTEXT-SENSITIVE SPELLING CORRECTION USING CONFUSION SET [P] . 韩国专利： KR20150007647A . 2015-01-21

机译：基于混淆集的统计上下文敏感散点校正方法和系统
5. Method and apparatus using probabilistic language model based on confusable sets for speech recognition [P] . 美国专利： US06182039B2 . 2001-01-30

机译：使用基于可混淆集的概率语言模型进行语音识别的方法和装置