首页> 中国专利> 一种科技项目申请书特征词提取方法

一种科技项目申请书特征词提取方法

摘要

本发明公开了一种科技项目申请书特征词提取方法。本发明具体包括如下步骤:步骤1:将申请书主要文本切分成子串序列并进行中科院ICTCLAS分词;步骤2:构建基于碎片的规则模型,并通过构建的规则模型识别未登录词;步骤3:对经步骤2提取未登录词后的分词结果进行停用词过滤得到词语集合;步骤4:计算词语集合中词语间语义相似度并建立词语语义相似度网络,计算图中词语的关联度,根据关联度大小提取特征词;步骤5:将步骤4得到的特征词与步骤2识别出的未登录词组成科技项目申请书的特征词。本发明能更准确地提取到项目申请书的关键词,也改善了科技项目相似度检查的效果。

著录项

  • 公开/公告号CN103235774A

    专利类型发明专利

  • 公开/公告日2013-08-07

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN201310151425.8

  • 发明设计人 徐小良;林建海;茅志刚;

    申请日2013-04-27

  • 分类号G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人杜军

  • 地址 310018 浙江省杭州市下沙高教园区2号大街

  • 入库时间 2024-02-19 19:20:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-04

    未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2013101514258 申请日:20130427 授权公告日:20160406

    专利权的终止

  • 2020-02-18

    专利实施许可合同备案的生效 IPC(主分类):G06F17/27 合同备案号:X2020330000008 让与人:杭州电子科技大学 受让人:杭州涡流科技有限公司 发明名称:一种科技项目申请书特征词提取方法 申请公布日:20130807 授权公告日:20160406 许可种类:普通许可 备案日期:20200117 申请日:20130427

    专利实施许可合同备案的生效、变更及注销

  • 2016-04-06

    授权

    授权

  • 2013-09-04

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20130427

    实质审查的生效

  • 2013-08-07

    公开

    公开

说明书

技术领域

本发明属于分词与特征词提取技术领域,尤其涉及一种科技项目申请书特征词提取方法,用于针对科技项目申请书特征词提取的应用。

背景技术

随着我国各类科技计划项目申报数量和经费的逐年递增,由于目前科技项目管理信息系统建设的不健全,导致项目重复申报立项情况十分普遍。为有效杜绝这种现象,提高科技经费使用效率,针对科技项目申请书信息进行文本相似度计算研究是非常必要的。特征词是相似度计算、文本检索等应用的基础,因而特征词提取方法的研究是有效实现科技项目相似性检查的关键所在。

目前特征词提取方法主要分为三类:(1)基于统计特征的方法,如词语频度统计;(2)基于词语网络的方法,如根据规则将文档映射为词语共现网络并计算词语的关键度来提取特征词;(3)基于语义的方法。前两种方法虽然具有简单高效的优点,但由于算法局限于字面匹配、缺乏语义理解而排除了低频率的特征词。针对这个问题,引入语义特征进行关键词提取是目前的主要研究方法,如引入《同义词词林》计算词语的语义距离,一定程度上提高了关键词提取的准确度。

发明内容

本发明的目的是针对现有技术的不足,提出一种科技项目申请书特征词提取方法,能够有效地提取出表示项目申请书的特征词。

本发明解决问题所采取的技术方案包括如下步骤:

步骤1. 把申请书中的通用词和惯用词,作为专业停用词库;把标点符号、非汉字作为切分标记库。

所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”,“研究”。

步骤2. 对项目申请书进行分词:首先根据切分标记库,将申请书内容文本切分成子串序列;然后对子串序列分别进行中科院ICTCLAS分词。

步骤3.构建基于碎片的规则模型,并通过构建的规则模型识别未登录词。所述的未登录词识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,设WsC1C2…CnWe其中W是与碎片左端相邻的多字词,C1C2…C为产生的碎片,W是与碎片右端相邻的多字词。规则模型如下:

规则一:确定字词的词性。针对多词性的字词,以其词性标注的第一个为其词性。

规则二:设置未登录词排除字集。词性为介词、助词、代词、副词的单字,比如“的、呢、最、太、这、我”,还有其它词性当中有存在构词能力较弱的,比如“呈,有,如,时”,所述的构词能力比较弱是指与其它字串构成未登录词的概率小于10%;将这些词归类为未登录词排除字集。

规则三:设置切分规则。未登录词候选片段对于未登录词片段WsC1C2…CnW中的Ci根据规则二,确定为排除字,那么未登录词片段切分为WsC1…Ci-1 与Ci+1…CnWe 两个未登录词片段,其中,1<i<n,n为自然数。

规则四:设置前缀字集。对未登录词片段WsC1C2…CnWe 中的C进行前缀字判断。根据科技项目申请书分词碎片的分析统计,将碎片中存在构词能力比较强,且在词AB中处于A位置的字称为前缀字。所述的构词能力比较强是指与其它字词构成未登录词的概率超过90%的前缀字,将所述的前缀字归类为前缀字集。

规则五:设置后缀字集。对于未登录词片段WsC1C2…CnW中的C进行后缀字判断。同样根据规则四,将所述的后缀字归类为前缀字集。

规则六:设置词性配搭规则,具体如下:

(1). 若未登录词候选片段如WsC1We ,C1的第一词性为形容词,若W为名词,则优先与W结合;否则,若Ws为名词,不成词,否则优先与Ws结合。若未登录词候选片段如WsC1,W为名词,WC不成词,否则成词;若未登录词候选片段如C1We,W为动词,CW不成词,否则,成词。

(2). 若未登录词候选片段如WsC1W,C1的第一词性为动词,若W为动词或名词,那么C1优先与Ws结合; 否则,若Ws为动词,那么优先与Ws结合,否则不成词。若未登录词候选片段为C1W,W为形容词,则C1W不成词,否则成词;若未登录词候选片段如WsC1,W为名词,WsC不成词,否则成词。

(3). 若未登录词候选片段如WsC1W,C1的第一词性为名词,若W,W都为名词,则C优先与W结合,若只有Ws或W为名词,则优先与Ws或W结合,否则,优先与Ws结合。若未登录词候选片段如WsC1 或C1We ,则结合成WsC或C1W

(4). 若未登录词候选片段如WsC1W,C1的第一词性为其它词性,C优先与W结合。

对未登录词候选片段WsC1C2…CnW进行未登录词识别的规则模型,其描述如下:

1)若n=1,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);

2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C2…CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成C2…CnWe,转6);根据规则七,若C1是数词,则转7;否则转8);

3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);

4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);

5)根据规则六词性配搭,识别出未登录词;

6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束。若i<n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1…CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);

7)取下一个Ci,若i=n,根据规则六,若Ci是数词或量词前缀字,取出Cn-1Cn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束。若i<n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8)

8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束。若i<n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1…CnWe,转6);否则转8)。

步骤4. 根据通用停用词库和专业停用词库进行停用词过滤,通用停用词库是采用哈工大停用词表。把过滤停用词和未登录词后的分词结果作为词语集合。

步骤5. 对步骤4得到的词语集合进行词语间语义相似度计算,从而建立词语语义相似度网络;然后结合词语的词频,计算网络中词语的关联度来提取出其他特征词;

所述的语义相似度计算过程如下:

对于两个词语,借助于知网语义词典, 首先对两个词的义原相互进行相似度计算,并取其最大值,再根据下面的公式定义求得两个词语的语义相似度。

其中,w1为词语,有n个概念,w2为词语,有m个概念,且,n和m为自然数;

所述的词语语义相似度网络如下:

为处理后得到的词语集合,则其对应的语义相似度邻接矩阵定义为:

词语集合经过词语语义相似度计算得到p*(1+p)/2个词语间语义相似度的值,并对这些值进行递减排序;设定一个阈值,取出前的值,设这部分语义相似度值所对应的词组合成另一词序列集合为,根据它们之间的语义相似度值生成对应的输入语义相似度邻接矩阵,p与q为自然数。

作为输入的词语集合,作为输入的语义相似度邻接矩阵,则其对应的词语语义相似度网络图定义为:G={V,E}; 其中图G为无向加权图,V表示图G中的顶点集,表示V中第i个顶点(词);E表示G中的边集;图G边的权值矩阵为为第i个顶点和第j个顶点之间边的权值。

    所述的词语语义关联度计算为:

设图G为构建的社会网络图,其中G为加权无向图,图中两个顶点之间边的权值为它们之间的语义相似度;的最短路径经过的顶点依次为,路径对应的边的权值依次为,则G中顶点对它们之间的关联度定义为:

         

其中为词序列集合中第j个词在申请书中的词频;为顶点之间最短路径长度。

所以对于图G中的顶点,它在整个图中的关联度如下: 

       

通过计算将得到q个关联度的值并从大到小排序,设定一个阈值,取出前个的值,则这些值所对应的顶点将作为文本特征词进行提取。

步骤6.将步骤5得到的特征词与步骤3识别出的未登录词组成科技项目的特征词。

本发明有益效果如下:

与传统的关键词提取方法相比,基于未登录词与语义的新方法能更准确地提取到项目关键词,也改善了科技项目相似度检查的效果。

附图说明

    图1是本发明中科技项目申请书特征词提取的流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示,一种科技项目申请书特征词提取方法,包括如下步骤:

步骤1. 把申请书中的通用词和惯用词,作为专业停用词库;把标点符号,非汉字作为切分标记库。所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”,“研究”等。

步骤2. 对项目申请书进行分词:首先根据切分标记库,将申请书内容文本切分成子串序列;然后对子串序列分别利用逆向最大匹配方法进行分词。

步骤3.构建基于碎片的规则模型,并通过构建的规则模型识别未登录词;通过对未登录词进行识别并提取相应的未登录词作为未登录词集合 ,将识别出的未登录词作为项目特征词的一部分。

所述的未登录词的识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,设WsC1C2…CnWe其中W是与碎片左端相邻的多字词,C1C2…C为产生的碎片,W是与碎片右端相邻的多字词。规则模型如下:

规则一:确定字词的词性。针对多词性的字词,以其词性标注的第一个为其的词性。

规则二:设置未登录词排除字集。词性为介词、助词、代词、副词的单字,比如“的、呢、最、太、这、我”,还有其它词性当中有存在构词能力较弱的,比如“呈,有,如,时”,所述的构词能力比较弱是指与其它字串构成未登录词的概率小于10%;将这些词为未登录词排除字集。

规则三:设置切分规则。未登录词候选片段对于未登录词片段WsC1C2…CnW中的Ci根据规则二,确定为排除字,那么未登录词片段切分为WsC1…Ci-1 与Ci+1…CnWe 两个未登录词片段,其中,1<i<n,n为自然数。

规则四:设置前缀字集。对未登录词片段WsC1C2…CnWe 中的C进行前缀字判断。根据科技项目申请书分词碎片的分析统计,将碎片中存在构词能力比较强,且在词AB中处于A位置的字称为前缀字。所述的构词能力比较强是指与其它字词构成未登录词的概率超过90%的前缀字为前缀字集。

规则五:设置后缀字集。对于未登录词片段WsC1C2…CnW中的C进行后缀字判断。同样根据规则四,收集了后缀字集。

规则六:设置词性配搭规则,具体如下:

(1). 若未登录词候选片段如WsC1We ,C1的第一词性为形容词,若W为名词,则优先与W结合;否则,若Ws为名词,不成词,否则优先与Ws结合。若未登录词候选片段如WsC1,W为名词,WC不成词,否则成词;若未登录词候选片段如C1We,W为动词,CW不成词,否则,成词。

(2). 若未登录词候选片段如WsC1We ,C1的第一词性为动词,若W为动词或名词,那么C1优先与Ws结合; 否则,若Ws为动词,那么优先与Ws结合,否则不成词。若未登录词候选片段为C1W,W为形容词,则C1W不成词,否则成词;若未登录词候选片段如WsC1,W为名词,WsC不成词,否则成词。

(3). 若未登录词候选片段如WsC1We ,C1的第一词性为名词,若Ws ,W都为名词,则C优先与W结合,若只有Ws或W为名词,则优先与Ws或W结合,否则,优先与Ws结合。若未登录词候选片段如WsC或C1W,则结合成WsC1 或C1We 。

(4). 若未登录词候选片段如WsC1W,C1的第一词性为其它词性,C优先与W结合。

对未登录词候选片段WsC1C2…CnW进行未登录词识别的规则模型,其描述如下:

1)若n=1,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);

2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C2…CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成C2…CnWe,转6);根据规则七,若C1是数词,则转7;否则转8);

3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);

4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);

5)根据规则六词性配搭,识别出未登录词;

6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束。若i<n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1…CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);

7)取下一个Ci,若i=n,根据规则六,若Ci是数词或量词前缀字,取出Cn-1Cn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束。若i<n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8)

8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束。若i<n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1…CnWe,转6);否则转8)。

步骤4. 根据通用停用词库和专业停用词库进行停用词过滤,通用停用词库是采用哈工大停用词表。把停用词和未登录词的分词结果作为词语集合。

步骤5. 再对词语集合进行词语间语义相似度计算,从而建立词语语义相似度网络;然后结合词语的词频,计算网络中词语的关联度来提取出其他特征词;

所述的语义相似度计算过程如下:

对于两个词语,借助于知网语义词典, 首先对两个词的义原相互进行相似度计算,并取其最大值,再根据下面的公式定义求得两个词语的语义相似度。

其中,w1为词语,有n个概念,w2为词语,有m个概念,且,n和m为自然数;

所述的词语语义相似度网络如下:

为处理后得到的词语集合,则其对应的语义相似度邻接矩阵定义为:

词语集合经过词语语义相似度计算得到p*(1+p)/2个词语间相似度的值,并对这些值进行递减排序;设定一个阈值,取出前的值,假设这些相似度值所对应的词组合成另一词序列集合为,并根据它们之间的相似度值生成对应的输入语义相似度邻接矩阵。p与q为自然数。

作为输入的词语集合,作为输入的语义相似度邻接矩阵,则其对应的词语语义相似度网络图定义为:G={V,E}; 

其中图G为无向加权图,V表示图G中的顶点集,表示V中第i个顶点(词);E表示G中的边集;图G边的权值矩阵为为第i个顶点和第j个顶点之间边的权值。

    所述的词语语义关联度计算为:

设图G为构建的社会网络图,其中G为加权无向图,图中两个顶点之间边的权值为它们之间的语义相似度;的最短路径经过的顶点依次为,路径对应的边的权值依次为,则G中顶点对它们之间的关联度定义为:

         

其中为词序列集合中第j个词在申请书中的词频;为顶点之间最短路径长度。

所以对于图G中的顶点,它在整个图中的关联度如下: 

       

通过计算将得到q个关联度的值并从大到小排序,设定一个阈值,取出前个的值,则这些值所对应的顶点将作为文本特征词进行提取。

步骤6.将步骤5得到的特征词与步骤3识别出的未登录词组成科技项目的特征词。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号