首页> 中国专利> 一种基于知识图谱的海洋产业新闻推送方法及系统

一种基于知识图谱的海洋产业新闻推送方法及系统

摘要

本发明提供一种基于知识图谱的海洋产业新闻推送方法,包括:S1:构建海洋产业领域知识图谱和海洋产业领域新闻库;S2:根据用户输入的查询信息,获取查询意图;S3:将查询意图输入至海洋产业领域知识图谱中进行元素查询获得用户兴趣词项;S4:提取每条海洋产业新闻的关键词词项;S5:对用户兴趣词项与关键词词项进行相关度评分,获得相关度分值;S6:以相关度分值大小作为排序标准对海洋产业新闻进行排序,将排序后的海洋产业新闻推送给用户;S7:用户点击阅读后,对被阅读的新闻进行二次信息提取,将二次信息与查询意图叠加,作为二次查询意图,执行S3‑S6。本发明可以准确的将符合用户兴趣点的新闻推送给用户供其阅读,为用户带来便利。

著录项

  • 公开/公告号CN112711716A

    专利类型发明专利

  • 公开/公告日2021-04-27

    原文格式PDF

  • 申请/专利权人 广东工业大学;

    申请/专利号CN202110099791.8

  • 发明设计人 程良伦;周佳乐;张伟文;王涛;

    申请日2021-01-25

  • 分类号G06F16/9535(20190101);G06F16/36(20190101);G06F40/284(20200101);G06F40/289(20200101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人张金福

  • 地址 510090 广东省广州市越秀区东风东路729号

  • 入库时间 2023-06-19 10:46:31

说明书

技术领域

本发明涉及自然语言处理技术领域,更具体地,涉及一种基于知识图谱的海洋产业新闻推送方法及系统。

背景技术

互联网和大数据时代的到来,产生了各种各样的信息。海洋产业经济是当今海洋经济研究的重要内容,近年来海洋经济大力发展,加快转变经济发展方式,提升经济增长活力和效益,对国民经济的稳定和就业都发挥着巨大作用。而对用户来说,关联知识获取困难,如果不能对信息及时获取和了解可能会导致无法准确地做出决策判断,加强信息技术与海洋产业的深度融合是推进经济发展的重要基础。知识图谱的引入,无疑带来了诸多便利。可视化知识图谱,清晰反映产业格局现状和潜力,为经济协调发展提供决策。知识图谱化的引入,不仅将非结构化新闻信息转化成结构化信息,而且使大量的新闻内容得到有效组织和展现。传统的推荐方法对新闻特征提取能力有限,在推送上存在不足,难以发现用户的兴趣与潜在相关的新闻,当用户浏览不多时,难以向用户推送相关的新闻,满足用户的个性化需求。针对推送新闻的单一化,将知识图谱与新闻推送结合起来,引入更多的语义关系,深层次的发掘用户兴趣。通过知识图谱中不同的关系链接种类,有利于推送结果的发散,符合当下新闻推送所面临的挑战,使新闻推送不局限于某一种特定内容,用户能够根据自己感兴趣的方面得到相关新闻的推送,对信息的选择和认知带来了巨大的方便,也为决策阅读了解海洋产业相关知识做出进一步的理解,将知识图谱应用于这些领域以提高用户体验与了解信息,也成为业界关注的热点。因此,研究知识图谱在新闻推送领域中的应用具有重大意义。

2015年3月25日公开的中国专利CN104462578A提供了新闻推送方法,采用更为广泛的人群在指定时间进行浏览的,其通过在确定了向推送用户进行新闻推送的推送时间段后,根据预先储存好的过去在相同的时间段(推送时间段)中,指定人群所浏览的数据(如单个新闻的浏览量,或某种新闻的浏览量),确定了优选新闻,其中优选新闻是指定人群浏览次数最多的新闻,使推送用户能够接收到指定群体最关注,或者是影响力最大的新闻,从而准确的拓宽了推送用户的接收新闻的种类,并且准确的使用户接收到的应当了解的新闻。该发明推送的新闻是指定群体最关注或影响力最大的新闻,无法推送符合用户兴趣点的新闻

发明内容

本发明为克服上述现有技术难以准确发掘符合用户兴趣点的新闻的缺陷,提供一种基于知识图谱的海洋产业新闻推送方法及系统。

本发明的技术方案如下:

本发明提供一种基于知识图谱的海洋产业新闻推送方法,所述方法包括以下步骤:

S1:构建海洋产业领域知识图谱和海洋产业领域新闻库;

S2:根据用户输入的查询信息,获取查询意图;

S3:将S2获得的查询意图输入至S1构建的海洋产业领域知识图谱中进行元素查询,获得相关词语;将所述相关词语作为用户兴趣词项;

S4:对S1构建的海洋产业领域新闻库中的每条海洋产业新闻进行关键词提取,获得每条海洋产业新闻的关键词词项;

S5:对S3获得的用户兴趣词项与S4获得的每个关键词词项进行相关度评分,获得对应的相关度分值;

S6:以S5获得的相关度分值的大小作为排序标准对海洋产业新闻进行排序,将排序后的海洋产业新闻推送给用户;相关度分值越大的关键词词项对应的海洋产业新闻排序越靠前;

S7:用户点击阅读S6推送的海洋产业新闻后,对被阅读的该海洋产业新闻进行二次信息提取,将所述二次信息与S2中的查询意图叠加,作为二次查询意图,执行步骤S3-S6。

优选地,所述S1中,构建海洋产业领域知识图谱的具体方法为:

S1.1:根据公共海洋产业数据来源建立海洋产业领域多源数据集;

S1.2:对所述海洋产业领域多源数据集进行知识抽取;

S1.3:对S1.2抽取的知识进行知识融合,获得统一类型的知识;

S1.4:将S1.3得到的统一类型的知识导入Neo4j,构建海洋产业领域知识图谱。

优选地,所述S1.1中,公共海洋产业数据来源包括:海洋网站新闻、政府部门数据、行业发展白皮书、产业发展报告和企业填报数据。

优选地,执行所述S1.2前,还需对数据集中包含的数据进行预处理,具体包括:将数据集中包含的数据转化为计算机识别的语言,对其进行分词、清理噪声和去除无意义的符号。

优选地,所述S1.2中,海洋产业领域多源数据集包括结构化海洋产业数据、半结构化海洋产业数据和非结构化海洋产业数据。

优选地,所述S1.2中,知识抽取的内容包含实体抽取、属性抽取和关系抽取。

优选地,所述S1.3中,知识融合的具体方法为:针对一个名称称谓指向多个实体的情况,对该名称称谓进行实体消歧操作,消除一词多义的现象;针对相同实体在不同公共海洋产业数据来源中有不同的名称称谓,根据通过基于特征匹配的方法对这些名称称谓进行实体对齐操作,将这些实体进行合并,用唯一名称对其进行标识。

实体消歧需要根据该实体所在的公共海洋产业数据来源中上下文相关信息进行歧义消解,使最终构建的海洋产业领域知识图谱包含的内容更准确;实体对齐聚集了不同公共海洋产业数据来源中实体信息,使最终构建的海洋产业领域知识图谱包含的内容更丰富。

优选地,所述S3中,在海洋产业领域知识图谱中进行元素查询时,采用图搜索算法从广度优先搜索和深度优先搜索角度执行所述元素查询操作。

优选地,所述S4中,使用TF-IDF算法进行关键词提取,具体步骤为:

S4.1:计算词语i在海洋产业新闻j中出现的频率TF

其中,n

S4.2:计算词语i的逆文档频率IDF,公式为:

其中,|D|表示海洋产业领域新闻库D中的海洋产业新闻的总数量,|{i∈D}|表示海洋产业领域新闻库D中包含词语i的海洋产业新闻的数量;

S4.3:计算词语i的TF

TF

S4.4:当TF

优选地,所述S5中,计算相关度分值的方法为采用欧几里得距离计算所述用户兴趣词项与所述关键词词项的相关度:

其中,sim(x

本发明还提供一种基于知识图谱的海洋产业新闻推送系统,所述系统包括:

用户模块,用于供用户输入查询信息,以及显示推送的海洋产业新闻供用户点击阅读;

数据分析模块,用于根据用户输入的查询信息,获取查询意图;

知识图谱模块,用户首次查询时,用于根据查询意图获取用户兴趣词项;用户有点击阅读推送的海洋产业新闻的操作时,用于综合查询意图与阅读过的海洋产业新闻的二次信息获取用户兴趣词项;

新闻库模块,用于储存海洋产业新闻信息,形成海洋产业领域新闻库中,以及对每条海洋产业新闻信息提取关键词词项;

评分排序模块,用于对用户兴趣词项和关键词词项进行相关度评分,获取相关度分值,并根据相关度分值将海洋产业新闻进行排序;

推送模块,用于将排序后的新闻推送给用户;

二次信息提取模块,用于对用户点击阅读的海洋产业新闻进行二次信息提取。

与现有技术相比,本发明技术方案的有益效果是:

本发明提供的方法基于知识图谱,可以广泛且深入的确定用户的查询意图,根据用户兴趣词项与新闻的关键词词项进行相关度评价,准确的将符合用户兴趣点的新闻推送给用户供其阅读,更好的把握了推送新闻的内容,为用户带来便利。

附图说明

图1为实施例1所述一种基于知识图谱的海洋产业新闻推送方法的流程图;

图2为实施例1所述一种基于知识图谱的海洋产业新闻推送方法的逻辑图;

图3为实施例1所述构建海洋产业领域知识图谱的示意图;

图4为实施例2所述一种基于知识图谱的海洋产业新闻推送系统的结构示意图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于知识图谱的海洋产业新闻推送方法,如图1、图2所示,所述方法包括以下步骤:

S1:构建海洋产业领域知识图谱和海洋产业领域新闻库;

S2:根据用户输入的查询信息,获取查询意图;

S3:将S2获得的查询意图输入至S1构建的海洋产业领域知识图谱中进行元素查询,获得相关词语;将所述相关词语作为用户兴趣词项;

S4:对S1构建的海洋产业领域新闻库中的每条海洋产业新闻进行关键词提取,获得每条海洋产业新闻的关键词词项;

S5:对S3获得的用户兴趣词项与S4获得的每个关键词词项进行相关度评分,获得对应的相关度分值;

S6:以S5获得的相关度分值的大小作为排序标准对海洋产业新闻进行排序,将排序后的海洋产业新闻推送给用户;相关度分值越大的关键词词项对应的海洋产业新闻排序越靠前;

S7:用户点击阅读S6推送的海洋产业新闻后,对被阅读的该海洋产业新闻进行二次信息提取,将所述二次信息与S2中的查询意图叠加,作为二次查询意图,执行步骤S3-S6。

如图3所示,所述S1中,构建海洋产业领域知识图谱的具体方法为:

S1.1:根据公共海洋产业数据来源建立海洋产业领域多源数据集;

S1.2:对所述海洋产业领域多源数据集进行知识抽取;

S1.3:对S1.2抽取的知识进行知识融合,获得统一类型的知识;

S1.4:将S1.3得到的统一类型的知识导入Neo4j,构建海洋产业领域知识图谱。

所述S1.1中,公共海洋产业数据来源包括:海洋网站新闻、政府部门数据、行业发展白皮书、产业发展报告和企业填报数据。

执行所述S1.2前,还需对数据集中包含的数据进行预处理,具体包括为:将数据集中包含的数据转化为计算机识别的语言,对其进行分词、清理噪声和去除无意义的符号。

所述S1.2中,海洋产业领域多源数据集包括结构化海洋产业数据、半结构化海洋产业数据和非结构化海洋产业数据。

所述S1.2中,知识抽取的内容包含实体抽取、属性抽取和关系抽取。

所述S1.3中,知识融合的具体方法为:针对一个名称称谓指向多个实体的情况,对该名称称谓进行实体消歧操作,消除一词多义的现象;针对相同实体在不同公共海洋产业数据来源中有不同的名称称谓,根据通过基于特征匹配的方法对这些名称称谓进行实体对齐操作,将这些实体进行合并,用唯一名称对其进行标识。。

所述S3中,在海洋产业领域知识图谱中进行元素查询时,采用图搜索算法从广度优先搜索和深度优先搜索角度执行所述元素查询操作。

所述S4中,使用TF-IDF算法进行关键词提取,具体步骤为:

S4.1:计算词语i在海洋产业新闻j中出现的频率TF

其中,n

S4.2:计算词语i的逆文档频率IDF,公式为:

其中,|D|表示海洋产业领域新闻库D中的海洋产业新闻的总数量,|{i∈D}|表示海洋产业领域新闻库D中包含词语i的海洋产业新闻的数量;

S4.3:计算词语i的TF

TF

S4.4:当TF

所述S5中,计算相关度分值的方法为采用欧几里得距离计算所述用户兴趣词项与所述关键词词项的相关度:

其中,sim(x

本实施例提供的方法,集合知识图谱,可以广泛且深入的确定用户的查询意图,根据用户兴趣词项与新闻的关键词词项进行相关度评价,准确的将符合用户兴趣点的新闻推送给用户供其阅读,并且结合用户的点击阅读行为与查询意图,发散的推送新闻,避免了推送的新闻单一化,更好的把握了推送新闻的内容,为用户带来便利。

实施例2

本实施例提供一种基于知识图谱的海洋产业新闻推送系统,如图4所示,所述系统包括:

用户模块,用于供用户输入查询信息,以及显示推送的海洋产业新闻供用户点击阅读;

数据分析模块,用于根据用户输入的查询信息,获取查询意图;

知识图谱模块,用户首次查询时,用于根据查询意图获取用户兴趣词项;用户有点击阅读推送的海洋产业新闻的操作时,用于综合查询意图与阅读过的海洋产业新闻的二次信息获取用户兴趣词项;

新闻库模块,用于储存海洋产业新闻信息,形成海洋产业领域新闻库中,以及对每条海洋产业新闻信息提取关键词词项;

评分排序模块,用于对用户兴趣词项和关键词词项进行相关度评分,获取相关度分值,并根据相关度分值将海洋产业新闻进行排序;

推送模块,用于将排序后的新闻推送给用户;

二次信息提取模块,用于对用户点击阅读的海洋产业新闻进行二次信息提取。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号