首页> 中国专利> 一种中外文文献统一主题检索系统

一种中外文文献统一主题检索系统

摘要

本发明公开了一种中外文文献统一主题检索系统,包括主题标引模块、数据库检索模块、输入识别与转换模块与结果输出模块;所述主题标引模块,用于建立标引模型,获取文章主题关键词,并写入SYS_NVSM字段;数据库检索模块,用于对最佳主题进行相关检索,并实现时间排序下的相关度计算;输入识别与转换模块,用于将用户输入转换为检索表达语句,输出给数据库检索模块;结果输出模块,用于读取数据库检索模块中的最终结果,并按时间排序在网页上。本发明检索结果的输出默认按时间排序,读者能够看到最新且相关度完备性俱佳的研究成果,包括中文和外文学术成果。

著录项

  • 公开/公告号CN114880439A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 同方知网(北京)技术有限公司;

    申请/专利号CN202210652487.6

  • 申请日2022-06-09

  • 分类号G06F16/33(2019.01);G06F16/338(2019.01);G06F16/31(2019.01);

  • 代理机构北京天奇智新知识产权代理有限公司 11340;

  • 代理人陈新胜

  • 地址 100192 北京市海淀区西小口路66号东升科技园北领地A2楼

  • 入库时间 2023-06-19 16:20:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022106524876 申请日:20220609

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及主题标引、信息检索、知识发现技术领域,尤其涉及一种中外文文献统一主题检索系统。

背景技术

出版文献本身的内容特征,以期刊文献为例,主要包括篇名、关键词、摘要、全文等,以其中任何一项作为检索入口,都难以达到主题相关的理想检索效果。比如,按篇名和关键词检索,难以反映文章本身的全部主题,漏检率高;按全文检索,主题信息过于分散,查准率低;按摘要检索,一方面,部分论文本身不写摘要,已写摘要,也各自规格不一,仍然达不到较好的主题相关检索效果。

根据中国知网调研结果,八成高端学者使用检索方式获取期刊文章,绝大多数高端学者每天使用学术期刊。调研结果反映,每天检索到最新的主题相关文献,是文献数据库终端读者的潜在需求。

现有检索系统的缺点,默认按照相关度排序,导致排在首页的检索结果长期不变,读者很难看到最新的成果;如果检索结果按时间排序,排在前面内容会出现严重的主题漂移现象,无法保证新文献的检准率。

发明内容

为解决上述技术问题,本发明的目的是提供一种中外文文献统一主题检索系统。

本发明的目的通过以下的技术方案来实现:

一种中外文文献统一主题检索系统,包括:

包括主题标引模块、数据库检索模块、输入识别与转换模块与结果输出模块;所述

主题标引模块,用于建立标引模型,获取文章主题关键词,并写入SYS_NVSM字段;

数据库检索模块,用于对最佳主题进行相关检索,并实现时间排序下的相关度计算;

输入识别与转换模块,用于将用户输入转换为检索表达语句,输出给数据库检索模块;

结果输出模块,用于读取数据库检索模块中的最终结果,并按时间排序在网页上。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

基于主题关键词标引的检索模式,以包含一篇文章的所有主题特征的关键词为基础检索对象,同时综合配置所有内容相关字段,相比基于篇名、全文的检索方式,能够兼顾检准与检全,提高检索效果。

检索结果的输出默认按时间排序,读者能够看到最新且相关度完备性俱佳的研究成果,包括中文和外文学术成果。

附图说明

图1是中外文文献统一主题检索系统结构图;

图2是主题标引模块之主题关键词标引流程图;

图3是主题标引模块之组合关键词标引示意图;

图4是主题标引模块之主题关键词截断算法实施例示意图;

图5是数据库检索模块之主题检索原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示,为中外文文献统一主题检索系统结构,包括主题标引模块、数据库检索模块、输入识别与转换模块、结果输出模块;所述主题标引模块包括通过关键词权值计算、词关系构建、同义词和上下位词规约、组合关键词标引、关键词截断建立标引模型,获取文章主题关键词,写入SYS_NVSM字段;数据库检索模块综合SYS_NVSM和SMARTS_NVSM底层配置、调配检索参数和截断机制,实现最佳主题相关检索,并实现时间排序下的相关度计算;输入识别与转换模块包括制定中英文扩展规则、制定检索规则、识别用户输入语种和组合运算逻辑并转换为检索表达语句,传递给数据库检索系统;结果输出模块包括默认按时间排序的检索结果输出及知识矩阵展示。

所述主题标引模块,是统一主题检索系统的首要任务,其总体设计思路是,在全学科专业词典、主题词典、同义与上下位词典基础上,综合考察文献中词语的词频、IDF、词间影响力、词语所处的文章位置、所在句子等统计特征,以及词性、同义、上下位等语法语义特征,建立标引模型,获取文章主题关键词。

图2为主题关键词标引流程,包括文章分词、词性过滤、权值计算、标引词截断、输出主题关键词。

文章分词和词性过滤,在此基础上,进行关键词权值计算,即对文章中不同位置的元数据进行关键词权值的计算,且根据位置IDF进行关键词权重的加权规约。关键词位置为:篇名=0,摘要=1,关键词=2,正文=3;根据位置IDF进行权重的加权规约。

对关键词中有同义和上下位关系的进行规约合并,提高并突出同义词和上下位词中更贴近主题的关键词的权值,进行优先重要标引。

组合关键词标引,词对标引考虑的特征包括:不同位置词对共现频率;特征距离下不同位置词对之间含有特征词的个数,特征词={在,对,对于,和,与,是};不同位置词对之间共现的平均距离,如果两个词之间出现分隔符那么距离增大+30;候选词对的权重;词对共现的置信度,即置信度越高的词对之间联系越密切。图3是组合关键词标引示意图。通过组合词对文章进行标引,更加准确的表达了文章的主题。

关键词截断指对候选关键词权重的柱状图进行分析,关键词的分布和幂律分布(长尾理论/二八原则)比较相似,且验证在双对数坐标下分布图为一条斜率为负的直线。在双对数坐标的表示下,关键词顺序对关键词的权重近似为一条直线或折线,因此关键词顺序和关键词权重可近似为一个或多个幂律分布的叠加。因此可以利用幂律分布的性质来实现关键词的截断。

图4是主题关键词截断算法实例示意图标;引词汇可以集中体现文献的主要主题,一篇文章具有一个或几个中心思想,反应中心思想的词汇携带的信息量大于边缘词汇的信息量,通过科学的算法可以截取出更能反应出文章主题信息的词汇。

所述数据库检索模块综合SYS_NVSM和SMARTS_NVSM底层配置、调配检索参数和截断机制,实现最佳主题相关检索,并实现时间排序下的相关度计算。

图5是主题检索逻辑图,其中,主题关键词SYS_NVSM实现了检索结果的主题相关性,输出匹配结果1。根据实际的测试结果及检索需求,如终端读者习惯在默认主题检索项输入完整篇名,还需补充所有内容相关字段,并进行综合参数调配,形成SMARTS_NVSM字段。具体参数设置如表1:

表1

SMARTS_NVSM字段综合了所有内容相关信息,是SYS_NVSM匹配结果之外的必要补充,输出匹配结果2。但SMARTS_NVSM也具备出版物内容信息的检索缺陷,系统通过相关算法,对此部分匹配结果进行了截断。

匹配结果1与经过截断算法的匹配结果2,形成最终的匹配结果集。对匹配结果集综合字段权重和资源权重因子FFD,计算出相关度值,输出最终结果。

所述输入识别与转换模块包括制定中英文扩展规则、制定检索规则、识别用户输入语种和组合运算逻辑并转换为检索表达语句,传递给数据库检索系统。

所述中英文扩展规则,目的是提供跨语言检索,让用户一次检索到多种不同语言的文献。系统采用翻译用户查询请求,把用户输入单一语种查询请求翻译成多语种的查询请求,实现不同语种文献的同时查询。具体扩展规则为:采用用户输入词在对应语种的文献中检索,采用用户输入词的对照词在另外语种的文献中检索。

所述检索规则,用于规范用户的输入,避免歧义,以更好地支持复杂组合运算式,表达更丰富的检索需求。如下:

系统支持使用运算符*、+、-、”、""、()进行多个检索词的组合运算;

输入运算符*(与)、+(或)、-(非)时,前后要空一个字节,优先级需用英文半角括号确定;

若检索词本身含空格或*、+、-、()、/、%、=等特殊符号,进行多词组合运算时,为避免歧义,须将检索词用英文半角单引号或英文半角双引号引起来。

系统识别用户输入语种和组合运算逻辑,并按预先制定的中英文扩展规则将用户输入转换为检索表达语句,传递给数据库检索系统。如:

用户输入“深度学习”,系统转换的检索表达语句为:主题%='深度学习',限定范围中文库;并且,v_subject%=xls('深度学习'),限定范围外文库。其中v_subject为外文库主题字段,xls('深度学习')表示'深度学习'的英文扩展词。

用户输入中英文混合组合运算式,如:deep learning*区块链,系统转换的检索表达语句为:主题%=xls('deep learning')*区块链,限定范围中文库;并且,v_subject%='deep learning'*xls(区块链),限定范围外文库。

所述结果输出模块包括默认按时间排序的检索结果输出及知识矩阵展示。

输入识别与转换模块,将用户输入转换为检索表达语句,传递给数据库检索系统。结果输出模块读取数据库检索系统的最终结果,默认按时间排序在网页上显示。系统还支持相关度、被引频次、下载频次排序。

中外文文献统一主题检索系统,集成中文和英文文献,集成期刊、学位论文、会议论文、报纸、图书、专利、标准、成果等不同资源文献,结果输出模块还包括以知识矩阵展示的方式,实现不同语种、不同资源文献的统一展示和自由切换。

虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号