首页> 中国专利> 一种基于动态本体与实例更新的结构化情报需求挖掘方法

一种基于动态本体与实例更新的结构化情报需求挖掘方法

摘要

本发明提出了一种基于动态本体与实例更新的结构化情报需求挖掘方法,包括以下步骤:情报需求实体动态更新,用于挖掘出特定情报搜索关键词在当前时间点的相关热点情报实体;主要利用线上搜索搜索引擎的实时性,配合挖掘整合的方法来实现;情报结构化本体动态更新,挖掘出与情报结构化本体的若干动态属性集合。本发明提供了一种基于动态本体与实例更新的结构化情报需求挖掘方法,能够集合多方数据,快速挖掘出适合情报搜索需求的热门相关实体以及动态本体属性集合。可以有效解决当前情报搜索需求的实时性和相同本体类型下不同实例之间的差异性问题,有效增强用户情报搜索的分析效率。

著录项

  • 公开/公告号CN116383522A

    专利类型发明专利

  • 公开/公告日2023-07-04

    原文格式PDF

  • 申请/专利号CN202211717739.5

  • 发明设计人 童景波;刘焕勇;祁艳;张琪;徐然;

    申请日2022-12-29

  • 分类号G06F16/9537(2019.01);G06F16/9538(2019.01);

  • 代理机构中国船舶专利中心 11026;

  • 代理人魏剑

  • 地址 100094 北京市海淀区丰贤东路1号

  • 入库时间 2024-01-17 01:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-07-21

    实质审查的生效 IPC(主分类):G06F16/9537 专利申请号:2022117177395 申请日:20221229

    实质审查的生效

  • 2023-07-04

    公开

    发明专利申请公布

说明书

技术领域

本发明属于自然语言处理技术领域,具体涉及一种基于动态本体与实例更新的结构化情报需求挖掘方法。

背景技术

随着互联网技术的高速发展,情报相关的各种数据越来越多,且存在着瞬息万变的特点,针对一个特定的事件,其在不同的时间点上所呈现出来的情报信息和情报需求都在发生改变。因此情报搜索系统就需要具备实效性的特点,能够捕捉到这种改变,满足动态情报挖掘的需求。

预定义情报结构化本体是实现情报搜索需求的前置条件,这也是当前基于本体的情报分析与需求挖掘系统的重要组成部分,但这种预定义的本体是一次性完成的,是一个静态的数据库,并不能感知外界情报的变化而自我更新。

发明内容

为了解决上述现有技术存在的问题,本申请提出一种基于动态本体与实例更新的结构化情报需求挖掘方法,包括以下步骤:

情报需求实体动态更新,用于挖掘出特定情报搜索关键词在当前时间点的相关热点情报实体;主要利用线上搜索搜索引擎的实时性,配合挖掘整合的方法来实现;

情报结构化本体动态更新,挖掘出与情报结构化本体的若干动态属性集合。

进一步的,所述动态属性集合指的是与当前情报实体相关的一些有意义的实体或者重要动作集合。

进一步的,情报需求实体动态更新具体包括以下步骤:

针对用户输入的实体关键词进行解析,得到具有意义的关键实体,作为情报搜索需求关键词;

针对情报搜索需求,通过调用当前主流的搜索引擎sug接口,分别得到与该情报搜索需求关键词相关的高频搜索集合,得到搜索引擎1-SUG、搜索引擎2-SUG、搜索引擎3-SUG结果;

针对得到的搜索引擎结果进行聚合和打分排序;

将聚合和打分排序后的结果,按照对应的打分按照从大到小进行排序,得到热门相关实体集合;

将热门实体集合作为最终的动态实体集合进行输出,流程完毕。

进一步的,对搜索引擎结果进行聚合和打分排序包括:

对SUG结果进行汇总、去重;

对每个SUG实体进行修正,移除其中的虚词、标点符号等成份;

记录最终每个SUG实体出现的频次,作为打分依据。

进一步的,情报结构化本体动态更新具体包括以下步骤:

针对用户搜索输入实体,以此作为搜索关键词在主流搜索引擎中得到包含该搜索关键词的网页集合;

针对得到的网页集合,利用通用网页解析组件,获取相关的网页的正文内容,并定位到该搜索关键词所在的上下文,进行汇总;

对定位到的关键词上下文进行内容解析,包括实体识别和搭配抽取;

对解析后的结果集合进行聚合排序;

将聚合排序后的结果进行整理输出,流程完毕。

进一步的:

实体识别包括人名、地名、机构名、国家名这类内容;

搭配抽取包括计算与该搜索关键词高频共现动词集合。

进一步的,聚合排序具体包括:

聚合包括对词语集合进行聚类去重,将相似度高于一定阈值的词语合并为一个词;

排序包括根据聚合后结果出现的频次进行排序,并设定一定频次阈值,将高于阈值的词语进行输出。

本发明与现有技术相比,其有益效果在于:

本发明提供了一种基于动态本体与实例更新的结构化情报需求挖掘方法,能够集合多方数据,快速挖掘出适合情报搜索需求的热门相关实体以及动态本体属性集合。可以有效解决当前情报搜索需求的实时性和相同本体类型下不同实例之间的差异性问题,有效增强用户情报搜索的分析效率。

附图说明

图1为本发明情报需求实体动态更新流程示意图,

图2为本发明情报结构化本体动态更新模块流程图。

具体实施方式

为使本领域技术人员能够更好的理解本发明的技术方案,下面结合附图对本发明做进一步的说明。

参照图1和图2,本申请提出的基于动态本体与实例更新的结构化情报需求挖掘方法,具体包括以下步骤:

1)情报需求实体动态更新模块。旨在情报需求实体动态更新模块旨在挖掘出特定情报搜索关键词在当前时间点的相关热点情报实体。该构建方式主要利用线上搜索搜索引擎的实时性,配合挖掘整合的方法来实现,包括如下几个步骤:

步骤1、针对用户输入的实体关键词进行解析,得到具有意义的关键实体,作为情报搜索需求关键词。

步骤2、针对情报搜索需求,通过调用当前主流的搜索引擎sug接口(sug,即下拉联想结果),分别得到与该情报搜索需求关键词相关的高频搜索集合,得到搜索引擎1-SUG、搜索引擎2-SUG、搜索引擎3-SUG结果。

步骤3、针对步骤2得到的结果进行聚合和打分排序。具体的,聚合部分包括对SUG结果进行汇总,去重;并对每个SUG实体进行修正,移除其中的虚词、标点符号等成份,并记录最终每个SUG实体出现的频次,作为打分依据;

步骤4、将步骤3的得到结果,按照对应的打分按照从大到小进行排序,得到热门相关实体集合;

步骤5、将热门实体集合作为最终的动态实体集合进行输出,整体流程完毕;

2)情报结构化本体动态更新模块。情报结构化本体动态更新旨在挖掘出与情报结构化本体的若干动态属性集合,这个属性指的是与当前情报实体相关的一些有意义的实体或者重要动作集合。在具体实现上,包括以下几个步骤:

步骤1、针对用户搜索输入实体,以此作为搜索关键词在主流搜索引擎中得到包含该搜索关键词的网页集合;

步骤2、针对步骤1得到的网页集合,利用通用网页解析组件,获取相关的网页的正文内容,并定位到该搜索关键词所在的上下文,进行汇总;

步骤3、对步骤2的到的关键词上下文进行内容解析,包括实体识别和搭配抽取。其中,实体识别包括人名、地名、机构名、国家名等类型,搭配抽取包括计算与该搜索关键词高频共现动词集合。

步骤4、对步骤3中得到的结果集合进行聚合排序。其中,聚合包括对词语集合进行聚类去重,将相似度高于一定阈值的词语合并为一个词;排序包括根据聚合后结果出现的频次进行排序,并设定一定频次阈值,将高于阈值的词语进行输出。

步骤5、将步骤4的到的结果进行整理输出,本模块整体流程完毕。

综上,仅为本发明之较佳实施例,不以此限定本发明的保护范围,凡依本发明专利范围及说明书内容所作的等效变化与修饰,皆为本发明专利涵盖的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号