首页> 中国专利> 一种中文新词语的检测方法及其检测系统

一种中文新词语的检测方法及其检测系统

摘要

本发明涉及一种中文新词语的检测方法及其检测系统。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时间信息和内容,对其切分并在切分的基础上查找重复串,然后存入原始数据库,再在给定时间的基础上,将原始数据库划分成给定时间以前和给定时间以后的两个数据库,将这两个数据库进行对比,得到新词候选列表,最后的结果由人工确认一下。本发明通过对比寻找某个时间点以后的新词语,可以寻找不限长度和构成的多字词与多字词组成的新词,并利用词的构成规律来滤除垃圾串,具有时效性高的特点。

著录项

  • 公开/公告号CN1641634A

    专利类型发明专利

  • 公开/公告日2005-07-20

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN200410000651.7

  • 发明设计人 邹纲;刘群;

    申请日2004-01-15

  • 分类号G06F17/27;G06F17/30;

  • 代理机构11280 北京泛华伟业知识产权代理有限公司;

  • 代理人王凤华

  • 地址 100080 北京市海淀区中关村科学院南路6号

  • 入库时间 2023-12-17 16:21:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-06-19

    专利权的转移 IPC(主分类):G06F17/27 变更前: 变更后: 登记生效日:20130528 申请日:20040115

    专利申请权、专利权的转移

  • 2009-10-28

    授权

    授权

  • 2005-09-14

    实质审查的生效

    实质审查的生效

  • 2005-07-20

    公开

    公开

说明书

技术领域

本发明涉及新词语的检测方法,特别涉及一种中文新词语的检测方法及其检测系统。

技术背景

自然语言中新词的不断涌现是一个客观规律,随着经济、社会的飞速发展和对外交流的日渐频繁,特别是Internet的普遍使用,这一现象变得更加明显,有研究统计,中国20年来平均每年产生800多个词语。

但是,对于汉语这样词与词之间没有明确边界的语言,识别新词比较困难。大体上,汉语中的新词语按来源可以分为以下几类:

1.命名实体:包括人名、地名、音译名、商品名、公司字号、机构名等;

2.缩略语:如“非典”、“计生委”等;

3.方言词:如“靓”、“买单”等;

4.新造词:如“伊妹儿”、“美眉”等;

5.专业术语:如“非典型肺炎”、“蓝光光盘”等;

6.音译词:如“酷”、“秀”、“克隆”等;

7.外来字母词:如WTO、APEC、SARS等。

这些类型的新词语中,除了第一类“命名实体”有一定的构成规律、最后一类“外来字母词”可以直接识别外,其他各类新词都没有明显的构成规律,识别非常困难。目前的新词识别研究以“命名实体”类的研究较多,其中又以人名、地名、音译名识别率为较高,正确率和召回率都可以达到90%以上,机构名构成规律较为复杂,识别正确率和召回率较低一些。除命名实体外,其他类型的新词语的自动识别研究比较少。

现在,编辑出版的专门的新词语词典,影响较大的如商务印书馆出版的《新华新词语词典》,新增词语四千多条,分成信息、财经、环保、医药、体育、军事、科技等类别,日常生活惯用新词语,如‘克隆’、‘双赢’等已被收录,而具争议性的词语,如‘包二奶’、‘泡妞’,经讨论后也被涵括在内,主要还是以人工方式为主进行编辑的,不仅效率不高,检索内容不全面,而且,现有的基于语料库的新词自动提取的技术,其主要步骤是:先利用公共词汇表以及标点符号,新词模板等等对原始语料库进行分段,然后通过构建GAST结构将分段的语料库分割成子串并统计子串在语料库中出现的次数,最后过滤掉假词,输出新词,该方法的主要不足在于:

1)只是单纯的提取子串作为新词,并没有考虑词语的时间的因素。

2)提取的子串也只是限于单字词组成的串以及单字词和多字词组成的串,没有考虑多字词与多字词组成的串。

3)滤除假词的方法比较简单。

发明内容

本发明的目的在于:克服现有新词检测的方法采用人工检索的低效问题,以及基于语料库的新词自动提取的技术在时效性低以及新词查找范围不全的缺陷,从而为除命名实体外的其他类型的新词语提供一种中文新词语的检测方法及其检测系统。

本发明的目的是这样实现的:

为实现上述目的,本发明提供的中文新词语的检测方法基于Internet提取含有时间信息的网页信息进行词法分析,查找出在网页中所有的重复串,并连同重复串的时间信息一并存入原始数据库,同时把词和词的时间信息也存入原始数据库,根据给定的时间,将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库,对比背景数据库和过滤数据库中的词和串,生成符合阈值条件的新词候选列表,然后,根据构词的词性规则过滤新词候选列表中的垃圾串,最终检测出新词语;

所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。

所述网页信息的提取,首先是对其进行基于模板的网页内容和时间信息的提取,如果网页提取解析失败,则再进行一次基于特征的网页内容和时间信息的提取。

所述的词法分析是采用概率词法分析系统ICTCLAS切分所提取的网页正文内容得到词和词性。

所述原始数据库中建有两个表,一个是用于存放文档信息的文档索引表,另一个是按文档存放的词串表。

所述的阈值条件为:未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5,出现频率大于等于10次是新词。

所述的垃圾串的过滤,依照以下规则进行:

①对于新词候选里面出现功能词,则加以滤除;

②对于新词候选是由单个字组成的串,不予过滤;

③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉;

形容词+形容词=形容词;

名词+名词=名词;

形容词+名词=名词;

④对于新词候选是单个词的,不予过滤。

本发明提供的中文新词语的检测系统,该检测系统利用一计算机基于Internet提取含有时间信息的网页信息检测新词,该计算机包括:

网页采集模块,用于采集指定新闻网站的网页,并按照网站结构存入硬盘;

网页处理模块,用于提取网页中正文的内容和时间、进行词法分析、执行重复串查找指令和生成原始数据库;

新词查找模块,用于对比原始数据库中给定的时间前后的词和串,生成符合阈值条件的新词候选列表,并进行新词候选列表的垃圾串过滤;

输出模块,用于输出检测出的不限长度和构成的新词语;

所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。

所述网页处理模块,首先是对其进行基于模板的网页内容和时间信息的提取,如果网页提取解析失败,则再进行一次基于特征的网页内容和时间信息的提取。

所述网页处理模块采用概率词法分析系统ICTCLAS切分所提取的网页正文内容得到词和词性。

所述网页处理模块生成的原始数据库中建有两个表,一个是用于存放文档信息的文档索引表,另一个是按文档存放的词串表。

所述的阈值条件为:未曾出现在背景数据库的词在过滤数据库中的文档频率大于等于5,出现频率大于等于10次的重复串是新词。

所述的垃圾串的过滤,依照以下规则进行:

①对于新词候选里面出现功能词,则加以滤除;

②对于新词候选是由单个字组成的串,不予过滤;

③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉:

形容词+形容词=形容词;

名词+名词=名词;

形容词+名词=名词;

④对于新词候选是单个词的,不予过滤。

本发明的优点在于:本发明中文新词语的检测方法及其检测系统,与现有的技术相比,优点有:

1)引入词语的时间概念,可以寻找某个时间点以后的新词语。根据某个时间点将所有的词和重复串(其中包括多字词与多字词组成的串)划分成两个可供对比的集合,通过对比寻找某个时间点以后的新词语。

2)在对比的同时也已经将大部分常用的在一起的词与词搭配的重复串都滤掉了(比如“本报讯”等),起到了一部分过滤的作用。

3)可以寻找不限长度和构成的多字词与多字词组成的新词(比如“邪恶轴心”)。

4)利用词的构成规律来滤除垃圾串。

5)随着Internet的蓬勃发展,Internet上面蕴藏着海量的信息量,因此与从语料库中寻找新词相比,从Internet上寻找新词具有时效性高的特点。

附图说明

图1是依据本发明实现的系统框架图

图2是网页处理模块实现的流程图

图3是新词查找模块实现的流程图

图4是图1中重复串查找的示意图

图5是图2中重复串查找的示意图

具体实施方式

下面通过实施例并结合附图描述本发明中文新词语的检测方法,如图1所示,其步骤为:

1、网页采集,利用了一个共享的网页采集软件Offline Explorer采集指定新闻网站的网页,并按照网站结构存入硬盘。网页的采集也可以利用其他的采集软件,只要该软件能够完成采集网页的任务就可以。

2、网页处理,如图2所示,分为四个步骤:

1)提取网页正文内容和时间信息;主要功能是从网页中提取正文的内容和正文的时间,在处理每一个网页时,先对其进行基于模板的网页内容和时间信息的提取,如果由于不存在该网页的模板或者现有的模板不匹配而导致基于模板的网页提取解析失败时,再进行基于特征的网页内容和时间信息的提取;采用两种提取网页内容和时间信息的方法,实现两者的集成可以取得比较好的效果。

2)词法切分;对提取出来的网页正文内容进行词法切分,用计算所开发的已公开发表的概率词法分析系统ICTCLAS切分得到词和词性。

3)重复串查找;对经过词法切分的网页正文内容进行基于词的重复串查找,寻找出该篇文章中出现次数大于1次以上的所有重复串,这个过程又称为“基于词的重复串识别”,其目的是找出所有符合下列条件的串:①这些串是由文本中连续出现的符号串构成的;②这些串在文本中重复出现指定次数或以上;③这些串最少由两个符号组成,最大长度可以没有限制;④一个符号是一个词。

整个重复串算法分成两个过程:搜索串的过程和归并串的过程,搜索串的过程开始先扫描整个文本一遍,记录下每一种符号出现的所有的位置,依次对每一种符号的向后进行扫描,搜索结束后归并搜索中产生的子串,得到文本中所有的重复串。

如图4所示,这个扫描过程:(假定出现次数为2次及2次以上被认为是重复串)假设从x符号开始对后面进行扫描。x(p1,q1,r1)^表示x的后继位置是p1,q1,r1,同时也说明p1,q1,r1的前一个位置p0,q0,r0上的符号都相同。^表示可以继续扫描下去,!表示已经不需要扫描下去了,称x(p1,q1,r1)^为活跃结点,表示它还要继续从p1,q1,r1这三个位置扫描下去,于是继续扫描位置p1,q1,r1,比较这三个位置上的字符是否一样,得到y(p2,q2,r2)^,继续扫描p2,q2,r2这三个位置,分裂成z(p3,q3)^,w(r3)!两个,w(r3)!的!表明中止了,说明不能扫描下去了,此时要把w前面的xy作为一个串存入结果数组,而z(p3,q3)^仍旧是活跃结点,因此从p3,q3这两个位置继续扫描,生成u(p4)!和v(q4)!,这两个都不是活跃节点,所以将u和v以前的搜索所走过的符号xyz存入结果数组中,结束对x的搜索过程。依此类推,继续从另一种符号y开始搜索,直到所有种类的符号被搜索完为止。

如图5所示,对每一种符号搜索的过程其实是结点分裂,形成一棵树的过程。所形成的串就是从根走到叶子结点的父亲的所经过的符号集合。

搜索过程结束后,还有个归并的过程。归并是为了解决搜索中产生的子串的问题。因为搜索过程是对于每一种符号依次进行搜索的,所以如果有下面这一个串:abcd...abcd...abcd在文中出现3次,依次从a,b,c,d开始搜索,将产生出下面几个串:abcd,bcd,cd,归并就是要去掉bcd,cd这两个子串,bcd和cd的特点是频率和abcd频率完全一样,因此,对结果数组进行尾字排序,在结果数组中形成cd,bcd,abcd这种顺序,归并的时候,从数组头开始扫描,一旦前一个串是后一个串的子串,且两者的频率完全一样时,就把前一个串从数组中删除,最后的结果就是文本中所有的重复串了。

4)数据库存储

将寻找出的重复串和切分出来的词,再加上提取出来的正文时间信息一并存入原始数据库。串和词的存储是按照文档的顺序存入数据库,因此数据库中有两个表,一个表是文档索引表,存放文档信息,另一个表是词串表,按文档存放词和串。原始数据库的表的结构分别如下:

文档索引表的结构:

    字段名称    字段说明    TextId    主键,自动递增    SourceHtmlName    源html文件的带路径名称    SourceDate    源html的日期    PaperName    报纸名称    Finished    指示这篇html是否处理完

词串表的结构:

    字段名称    字段说明    ForeignTextId    对应上表中的TextId    Cluster    切分的去标注的词或者查找出的串    Pos    词性标注    Freq    在该篇文章中的频率

3、新词查找,如图3所示,分为建立数据库和新词检测过滤两个步骤。

1)建立背景数据库和过滤数据库。

根据给定的时间,将原始数据库划分成背景数据库和过滤数据库,并且统计所有的词和串的总频率和文档频率,分别存入背景数据库和过滤数据库。

背景数据库的表的结构:

    字段名    称    字段说明    Word    词或者串    Pos    词性标注    TotalFreq    一共出现的频率    DocFreq    文档频率

过滤数据库的表的结构:

    字段名称    字段说明    Word    词或者串    Pos    词性标注    TotalFreq    一共出现的频率    DocFreq    文档频率    Paperpage1    该词所出现的报纸名称1    Page1    该词所出现的报纸1中的具体网页    Paperpage2    该词所出现的报纸名称2    Page2    该词所出现的报纸2中的具体网页    Paperpage3    该词所出现的报纸名称3    Page3    该词所出现的报纸3中的具体网页

2)检测新词和自动过滤。

对过滤数据库中出现的每一个词或者串,寻找背景数据库中是否出现,如果背景数据库中未出现该词或串,则根据预先设定的频率和文档频率阈值来决定是否将其列入新词候选列表。

阈值条件可以根据情况调整,本例中,阈值设定条件是:如果过滤数据库中的某个词在背景数据库中未出现,并且其文档频率大于等于5,频率大于等于10次,则该词将被认为是新词候选。

生成所有的新词候选列表后,利用切分时的词性信息,采用自动过滤的方法,过滤垃圾串(即非新词的串)。自动过滤的方法主要是利用词性信息,根据新词候选的不同情况进行:

①对于新词候选里面出现功能词,则加以滤除;

②对于新词候选是由单个字组成的串,不予过滤;

③对于新词候选是由两个字以上的词与词组成的串以及由单个字和两字以上的词组成的串,串的词性序列一旦不符合下面的规则,则将被过滤掉:

形容词+形容词=形容词;

名词+名词=名词;

形容词+名词=名词;

④对于新词候选是单个词的,不予过滤。

最后生成的结果中包含新词,新词例句和新词的出处,由人工进行最后的确定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号