首页> 中国专利> 写作素材查询方法、装置、电子设备和存储介质

写作素材查询方法、装置、电子设备和存储介质

摘要

本公开提供了一种写作素材查询方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及智能搜索、知识图谱等领域。具体实现方案为:对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题,并确定与第一主题关联的第二主题,之后,可确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件,以根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱,并根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。由此,将与目标事件相关的关联事件作为写作素材,从而向用户展示上述写作素材,可以避免用户逐个查看并筛选素材,可以提升用户的写作效率。

著录项

  • 公开/公告号CN113868508B

    专利类型发明专利

  • 公开/公告日2022.09.27

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202111117193.5

  • 发明设计人 郑烨翰;蔡远俊;

    申请日2021.09.23

  • 分类号G06F16/953(2019.01);G06F16/906(2019.01);G06F16/28(2019.01);G06F16/36(2019.01);

  • 代理机构北京清亦华知识产权代理事务所(普通合伙) 11201;

  • 代理人罗岚

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2022-11-28 17:50:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-27

    授权

    发明专利权授予

说明书

技术领域

本公开涉及人工智能领域,具体涉及智能搜索、知识图谱等领域,尤其涉及写作素材查询方法、装置、电子设备和存储介质。

背景技术

互联网成为信息社会的基本通信工具,尤其是在重大事件发生时,越来越多的用户通过互联网获取信息、发表看法、写作并发表文章等。比如,针对一些重大事件,记者或编辑会持续地编写新闻文章,进行一些列新闻专题报道,其中,媒体行业的新闻专题报道涉猎面较广,且形式多样。为了提升用户的写作效率,如何提供更具智能和结构化的辅助能力来帮助用户进行写作,是非常重要的。

发明内容

本公开提供了一种用于写作素材查询方法、装置、电子设备和存储介质。

根据本公开的一方面,提供了一种写作素材查询方法,包括:

对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题;

确定与所述第一主题关联的第二主题;

确定与所述第一主题关联的各第一候选事件,并确定与所述第二主题关联的各第二候选事件;

根据各所述第一候选事件和各所述第二候选事件之间的关联性,构建事件图谱;

根据待写作的目标事件,查询所述事件图谱,以将所述目标事件相关的关联事件作为写作素材。

根据本公开的另一方面,提供了一种写作素材查询装置,包括:

聚类模块,用于对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题;

第一确定模块,用于确定与所述第一主题关联的第二主题;

第二确定模块,用于确定与所述第一主题关联的各第一候选事件,并确定与所述第二主题关联的各第二候选事件;

构建模块,用于根据各所述第一候选事件和各所述第二候选事件之间的关联性,构建事件图谱;

查询模块,用于根据待写作的目标事件,查询所述事件图谱,以将所述目标事件相关的关联事件作为写作素材。

根据本公开的又一方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述一方面提出的写作素材查询方法。

根据本公开的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述一方面提出的写作素材查询方法。

根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述一方面提出的写作素材查询方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是本公开实施例一所提供的写作素材查询方法的流程示意图;

图2为本公开实施例二所提供的写作素材查询方法的流程示意图;

图3为本公开实施例三所提供的写作素材查询方法的流程示意图;

图4为本公开实施例中的事件图谱示意图;

图5为本公开实施例四所提供的写作素材查询方法的流程示意图;

图6为本公开实施例五所提供的写作素材查询方法的流程示意图;

图7为本公开实施例六所提供的写作素材查询方法的流程示意图;

图8为本公开实施例七所提供的写作素材查询方法的流程示意图;

图9为本公开实施例八所提供的写作素材查询装置的结构示意图;

图10示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

目前可通过素材搜集和检索来辅助记者、编辑进行选题报道,但是往往还需要人工去逐个筛选素材和选题,辅助效果不佳。并且,现有的方案只是对某个专题主题相关的素材进行检索召回,是一种线性的方式,创作者需要逐个地查看召回结果并过滤,不利于进行思维发散和参考,无法带来创作效率和质量的提升。

其中,媒体行业的新闻专题报道涉猎面较广,形式多样,单一的主题素材搜集检索无法有效提升选题策划、采编效率。因此,如何提供更具智能和结构化的辅助能力来帮助新闻专题工作,是非常重要的。

下面参考附图描述本公开实施例的写作素材查询方法、装置、电子设备和存储介质。

图1为本公开实施例一所提供的写作素材查询方法的流程示意图。

本公开实施例以该写作素材查询方法被配置于写作素材查询装置中来举例说明,该写作素材查询装置可以应用于任一电子设备中,以使该电子设备可以执行写作素材查询功能。

其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示,该写作素材查询方法可以包括以下步骤:

步骤101,对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题。

在本公开实施例中,候选素材可以为新闻文本(比如资讯稿件),或者也可以为其他素材,比如为音视频数据,或者为其他文本数据,比如用户发表的文章等,本公开对此并不做限制。

在本公开实施例中,可以提取各候选素材的主题,比如可以通过主题模型,来提取各候选素材的主题,之后,可以对各候选素材所提取的主题进行聚类,得到多个聚簇,并从多个聚簇中确定目标聚簇,比如该目标聚簇可以为最大簇,之后可确定该目标聚簇所对应的第一主题。

步骤102,确定与第一主题关联的第二主题。

在本公开实施例中,可以确定与第一主题关联的主题,本公开中记为第二主题。

举例而言,以第一主题为“XX运动会”,第二主题可以为“运动员”、“志愿者”等与该“XX运动会”相关的主题。

步骤103,确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件。

在本公开实施例中,可以确定与第一主题关联的事件,本公开中记为第一候选事件,并确定与第二主题关联的事件,本公开中记为第二候选事件。

步骤104,根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱。

在本公开实施例中,可以根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱,即本公开中,可以从各第一候选事件和各第二候选事件中,确定存在关联关系的候选事件,根据存在关联关系的候选事件,生成事件图谱。

步骤105,根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。

在本公开实施例中,待写作的目标事件是根据用户的写作需求确定的,比如目标事件可以为用户根据写作需求输入的。以用户为记者或新闻编辑工作者进行示例,目标事件可以为近期发生的热门事件。

在本公开实施例中,可以根据待写作的目标事件,查询事件图谱,以确定与目标事件相关的关联事件,并将上述关联事件作为写作素材,从而向用户展示写作素材,可以便于用户进行思维发散与参考辅助写作。并且,无需用户逐个查看并筛选素材,可以提升用户的写作效率。

本公开实施例的写作素材查询方法,通过对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题,并确定与第一主题关联的第二主题,之后,可确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件,以根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱,并根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。由此,将与待写作的目标事件相关的关联事件作为写作素材,从而向用户展示上述写作素材,可以避免用户逐个查看并筛选素材,可以提升用户的写作效率。并且,写作素材可为多个主题关联的事件,可以便于用户进行思维发散与参考辅助写作,提升写作质量。

需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均在征得用户同意的前提下进行,并且均符合相关法律法规的规定,且不违背公序良俗。

为了清楚说明本公开上述实施例中是如何构建事件图谱的,本公开还提出一种写作素材查询方法。

图2为本公开实施例二所提供的写作素材查询方法的流程示意图。

如图2所示,该写作素材查询方法可以包括以下步骤:

步骤201,对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题。

步骤202,确定与第一主题关联的第二主题。

在本公开的任意一个实施例之中,可以确定知识图谱中第一主题对应的目标节点,根据知识图谱中连接目标节点的边,以及目标节点的邻居节点,确定与第一主题关联的第二主题。也就是说,可以根据第一主题在知识图谱中的实体的上下位,边关系等特征,确定与第一主题关联的第二主题。

举例而言,第一主题在知识图谱中的目标节点为节点A,节点A的邻居节点分别为节点B节点C。应当理解的是,知识图谱中边(edge)代表了两个实体节点之间的关联信息,关联的强度通常由边的权重来表示,因此,本公开中,可以根据边的权重,来确定知识图谱中与目标节点最关联的节点,根据所确定的节点,来确定与第一主题关联的第二主题。例如,假设节点B和节点A之间的边的权重,高于节点C和节点A之间的边的权重,则可以将节点B所对应的主题,作为与第一主题关联的第二主题。

在本公开的任意一个实施例之中,可以确定与第一主题在同一候选素材中出现的候选主题,根据各候选主题与第一主题共同出现的次数,和/或,根据各候选主题与第一主题在同一候选素材中的位置信息,从各候选主题中确定第二主题。也就是说,可以根据主题的共现频次、主题在素材中的位置等特征,确定与第一主题关联的第二主题。

举例而言,假设第一主题为主题A,主题A和主题B以及主题C经常在同一素材中出现,主题A和主题B的共现频次(本公开中记为共同出现的次数),小于主题A和主题C的共现频次,则可以将主题C作为第二主题。

再例如,主题A和主题B的共现频次与主题A和主题C的共现频次相同,而主题B和主题A经常出现在素材的标题中,主题C经常出现在素材的正文中,显然,主题B与主题A更关联,因此,可以将主题B作为第二主题。

由此,可以实现根据不同方式,确定与第一主题关联的第二主题,可以提升该方法的灵活性和适用性。

需要说明的是,上述仅以采用各种方式中的其中一种方式,确定与第一主题关联的第二主题进行示例,实际应用时,还可以结合上述各种方式中的多种组合,来确定与第一主题关联的第二主题,以提升第二主题确定结果的准确性和可靠性,或者,还可以包括本领域已知的其他关联主题的确定方法,只要能够得到第一主题关联的主题即可,本公开对此并不作限制。

作为一种示例,可以将全网近期的资讯稿件作为候选素材,从各候选素材中确定第一主题(即核心主题),可以根据该第一主题在知识图谱中的目标节点所对应的邻居节点、连接目标节点的边,以及主题的共现频次和位置等特征,为第一主题建设关联的第二主题。例如,以第一主题为“XX运动会”,第二主题可以为“运动员”、“志愿者”等与该“XX运动会”相关的主题。

步骤203,确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件。

步骤201至203的执行过程可以参见上述实施例的执行过程,在此不做赘述。

步骤204,分别识别各第一候选事件和各第二候选事件对应的事件类型。

在本公开实施例中,可以分别识别各第一候选事件和各第二候选事件对应的事件类型,例如,可以对各候选事件进行语义识别,以确定各候选事件对应的事件类型。

作为一种示例,以候选素材为资讯稿件进行示例性说明,候选事件可以为新闻事件,对于某部门发布的A政策的新闻事件,属于“发布”事件类型,对于某地方响应A政策的新闻事件,属于“响应”事件类型。

步骤205,根据事件类型,确定各第一候选事件和各第二候选事件之间的关联性,以根据关联性,构建事件图谱。

在本公开实施例中,可以根据事件类型,确定各第一候选事件和各第二候选事件之间的关联性,以根据关联性,构建事件图谱。

在本公开实施例的一种可能的实现方式中,可以分别从各第一候选事件和各第二候选事件中,确定与设定关系对中第一事件类型匹配的第一目标事件,及确定与设定关系对中第二事件类型匹配的第二目标事件,其中,设定关系对为预先设置的,比如设定关系对可以为包含“第一事件类型-第二事件类型”的关系对。

之后可以建立第一目标事件和第二目标事件之间的关联关系,即确定第一目标事件和第二目标事件之间存在关联关系,从而可以根据存在关联关系的第一目标事件和第二目标事件,生成事件图谱。

举例而言,可以通过人工制定不同的关系对,关系对中包含“第一事件类型-第二事件类型”,比如关系对可以为“发布-响应”,从而本公开中,可以从各候选事件中,分别确定与第一事件类型匹配的第一目标事件,以及确定与第二事件类型匹配的第二目标事件,并建立第一目标事件和第二目标事件之间的关联关系,即可以为第一目标事件和第二目标事件建边,以构建得到基于事件的专题图谱,本公开中记为事件图谱。

由此,可以实现根据各候选事件之间的关联关系,生成事件图谱,可以提升事件图谱生成结果的准确性和可靠性。

步骤206,根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。

步骤206的执行过程可以参见上述实施例的执行过程,在此不做赘述。

本公开实施例的写作素材查询方法,通过根据各候选事件之间的关联性,构建事件图谱,即根据事件类型的关系,构建事件图谱,可以提升事件图谱生成结果的准确性和可靠性。并且,通过提供图结构的素材组织方式,且具有可解释性,可以为写作的用户提供更加具有指导性的参考和发散性的思维辅助。

为了清楚说明本公开上述实施例中是如何构建事件图谱的,本公开还提出一种写作素材查询方法。

图3为本公开实施例三所提供的写作素材查询方法的流程示意图。

如图3所示,该写作素材查询方法可以包括以下步骤:

步骤301,对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题。

步骤302,确定与第一主题关联的第二主题。

步骤303,确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件。

步骤301至303的执行过程可以参见上述任一实施例的执行过程,在此不做赘述。

步骤304,分别识别各第一候选事件和各第二候选事件中的论元。

在本公开实施例中,可以分别识别各第一候选事件中的论元(event argument),以及识别各第二候选事件中的论元。

步骤305,根据各第一候选事件的论元和各第二候选事件的论元,确定包含相同论元的第一候选事件和第二候选事件之间存在关联关系。

在本公开实施例中,可以根据各第一候选事件的论元和各第二候选事件的论元,确定包含相同论元的第一候选事件和第二候选事件,并建立上述包含相同论元的第一候选事件和第二候选事件之间的关联关系,即确定包含相同论元的第一候选事件和第二候选事件之间存在关联关系。

在本公开实施例的一种可能的实现方式中,还可以确定包含相同论元的各第一候选事件,并建立包含相同论元的各第一候选事件之间的关联关系。同样地,还可以确定包含相同论元的各第二候选事件,并建立包含相同论元的各第二候选事件之间的关联关系。

步骤306,根据存在关联关系的第一候选事件和第二候选事件,生成事件图谱。

在本公开实施例中,可以根据存在关联关系的事件,生成事件图谱。

举例而言,假设有两个事件,其中一个事件为“A部门和B组委邀请XXX考察XX运动会场馆”,另一个事件为“A部门:目前已为XX运动会举办创造有利条件”,这两个事件中的论元包括了“A部门”和“XX运动会”,通过配置该对论元共现的规则,可以为这两个事件建边,从而将所有与A部门和XX运动会都相关的事件进行了关联,以生成事件图谱。

作为一种示例,将全网近期的资讯稿件作为候选素材,根据候选素材生成的事件图谱可以如图4所示。

步骤307,根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。

步骤307的执行过程可以参见上述实施例的执行过程,在此不做赘述。

本公开实施例的写作素材查询方法,通过根据各候选事件之间的关联关系,生成事件图谱,即根据事件论元共现的关系,构建事件图谱,可以提升事件图谱生成结果的准确性和可靠性。

为了清楚说明本公开上述任一实施例中是如何确定各主题关联的候选事件的,本公开还提出一种写作素材查询方法。

图5为本公开实施例四所提供的写作素材查询方法的流程示意图。

如图5所示,该写作素材查询方法可以包括以下步骤:

步骤501,对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题。

步骤502,确定与第一主题关联的第二主题。

步骤501至502的执行过程可以参见上述任一实施例,在此不做赘述。

步骤503,对第一主题进行向量化,以得到第一主题的向量化表示。

在本公开实施例中,可以对第一主题进行向量化,得到第一主题的向量化表示。比如,可以将第一主题进行事件向量化embedding计算,得到事件类型对应的向量空间的向量化表示。

步骤504,将第一主题的向量化表示与事件库中各参考事件的向量化表示进行匹配,以将与第一主题的向量化表示匹配的参考事件作为第一候选事件。

在本公开实施例中,事件库中可以具有多个参考事件,本公开中,可以将第一主题的向量化表示与事件库中各参考事件的向量化表示进行匹配,以将与第一主题的向量化表示匹配的参考事件作为第一候选事件。

作为一种示例,可以基于相似度算法,计算第一主题的向量化表示与各参考事件的向量化表示之间的相似度,将相似度高于设定阈值的参考事件,作为第一候选事件。

步骤505,对第二主题进行向量化,以得到第二主题的向量化表示。

步骤506,将第二主题的向量化表示与各参考事件的向量化表示进行匹配,以将与第二主题的向量化表示匹配的参考事件作为第二候选事件。

同样地,可以对第二主题进行向量化表示,得到第二主题的向量化表示,将第二主题的向量化表示与事件库中各参考事件的向量化表示进行匹配,以将与第二主题的向量化表示匹配的参考事件作为第二候选事件。

步骤507,根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱。

步骤508,根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。

步骤507至508的执行过程可以参见上述任一实施例,在此不做赘述。

本公开实施例的写作素材查询方法,通过基于向量化表示之间的匹配度或相似度,来确定与主题关联的候选事件,可以提升确定结果的准确性和可靠性。

为了清楚说明本公开上述任一实施例中是如何确定各主题关联的候选事件的,本公开还提出一种写作素材查询方法。

图6为本公开实施例五所提供的写作素材查询方法的流程示意图。

如图6所示,该写作素材查询方法可以包括以下步骤:

步骤601,对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题。

步骤602,确定与第一主题关联的第二主题。

步骤601至602的执行过程可以参见上述任一实施例,在此不做赘述。

步骤603,识别第一主题对应的事件论元,并识别第二主题对应的事件论元。

在本公开实施例中,事件论元可以包括事件参与者、触发词(event trigger)、事件类型(event type)等。

在本公开实施例中,可以对第一主题进行事件识别,以确定第一主题对应的事件论元,并对第二主题进行事件识别,以确定第二主题对应的事件论元。

步骤604,将第一主题的事件论元与事件库中各参考事件的事件论元进行匹配,以将与第一主题的事件论元匹配的参考事件,作为第一候选事件。

在本公开实施例中,可以将第一主题的事件论元与事件库中各参考事件的事件论元进行匹配,以确定与第一主题的事件论元匹配的参考事件,并将所确定的参考事件,作为第一候选事件。

作为一种示例,可以从事件库中,确定事件论元与第一主题的事件论元相同的参考事件,并将确定的参考事件,作为第一候选事件,即第一候选事件的事件论元与第一主题的事件论元相同。

步骤605,将第二主题的事件论元与各参考事件的事件论元进行匹配,以将与第二主题的事件论元匹配的参考事件,作为第二候选事件。

在本公开实施例中,可以将第二主题的事件论元与事件库中各参考事件的事件论元进行匹配,以确定与第二主题的事件论元匹配的参考事件,并将确定的参考事件,作为第二候选事件。

作为一种示例,可以从事件库中,确定事件论元与第二主题的事件论元相同的参考事件,并将确定的参考事件,作为第二候选事件,即第二候选事件的事件论元与第二主题的事件论元相同。

步骤606,根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱。

步骤607,根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。

步骤606至607的执行过程可以参见上述任一实施例,在此不做赘述。

本公开实施例的写作素材查询方法,通过基于事件论元之间的匹配度或相似度,来确定与主题关联的候选事件,可以提升确定结果的准确性和可靠性。

为了清楚说明本公开上述任一实施例中是如何确定目标聚簇对应的第一主题的,本公开还提出一种写作素材查询方法。

图7为本公开实施例六所提供的写作素材查询方法的流程示意图。

如图7所示,该写作素材查询方法可以包括以下步骤:

步骤701,搜索发布时间与当前时间处于设定范围内的素材,作为候选素材。

需要说明的是,某些素材(比如资讯稿件)是具有时效性的,为了便于用户参考辅助写作,提升写作质量,可以仅从全网搜索发布时间与当前时间处于设定范围内的素材,作为候选素材。

步骤702,针对每个候选素材,抽取候选素材中重要程度最高的第三主题。

在本公开实施例中,可以基于主题模型,对每个候选素材进行主题提取,以确定各候选素材中重要程度最高的第三主题(即核心主题)。例如,针对每个候选素材,主题模型可以计算各主题在候选素材中的权重值,比如,主题出现在候选素材的标题中,权重值相对较高,主题出现在候选素材的正文中,权重值相对较低,从而可确定各主题在候选素材中的权重值,将权重值最高的主题,作为该候选文本的第三主题。

步骤703,对各第三主题进行聚类,得到多个聚簇。

在本公开实施例中,可以基于聚类算法,对各第三主题进行聚类,得到多个聚簇,即本公开中,可以根据各第三主题之间的相似度,对各第三主题进行聚类,得到多个聚簇。

步骤704,从多个聚簇中确定目标聚簇,其中,目标聚簇中包含的第三主题的个数大于其他聚簇。

在本公开实施例中,可以从多个聚簇中确定目标聚簇,其中,目标聚簇包含的第三主题的个数大于其他聚簇,即目标聚簇为多个聚簇中的最大簇。

步骤705,将目标聚簇中处于聚簇中心的主题,作为目标聚簇对应的第一主题。

在本公开实施例中,可以将目标聚簇中处于聚簇中心的主题,作为目标聚簇对应的第一主题。

步骤706,确定与第一主题关联的第二主题。

步骤707,确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件。

步骤708,根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱。

步骤709,根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。

步骤706至709的执行过程可以参见上述任一实施例,在此不做赘述。

本公开实施例的写作素材查询方法,通过基于聚类的方式,确定目标聚簇对应的第一主题,该第一主题可以表征多个候选素材的核心主题,从而基于核心主题进行事件图谱的构建,可以使得用户及时了解近期的重大事件或重要事件,从而提升写作质量。

需要说明的是,上述实施例中,第三主题用于表征候选素材的核心主题,而候选素材中除了存在核心主题之外,还存在一些次要主题。因此,在本公开实施例的一种可能的实现方式中,为了提升事件图谱的丰富性,还可以根据候选素材的次要主题,构建事件图谱。下面结合实施例七,对上述过程进行详细说明。

图8为本公开实施例七所提供的写作素材查询方法的流程示意图。

如图8所示,该写作素材查询方法可以包括以下步骤:

步骤801,搜索发布时间与当前时间处于设定范围内的素材,作为候选素材。

步骤801的执行过程可以参见上述实施例的执行过程,在此不做赘述。

步骤802,针对每个候选素材,抽取候选素材中重要程度最高的第三主题,以及抽取候选素材中的至少一个第四主题;其中,第四主题的重要程度低于第三主题。

在本公开实施例中,第三主题可以为候选素材的核心主题,第四主题可以为候选素材的次要主题。

在本公开实施例中,可以基于主题模型,对每个候选素材进行主题提取,以确定各候选素材中重要程度最高的第三主题(即核心主题),以及确定至少一个重要程度低于第三主题的第四主题。

作为一种示例,针对每个候选素材,主题模型可以计算各主题在候选素材中的权重值,比如,主题出现在候选素材的标题中,权重值相对较高,主题出现在候选素材的正文中,权重值相对较低,从而可确定各主题在候选素材中的权重值,根据各主题的权重值,确定第三主题和第四主题。例如,可以将权重值最高的主题,作为第三主题,将权重值次之的主题,作为第四主题。

步骤803,对各第三主题进行聚类,得到多个聚簇,并从多个聚簇中确定目标聚簇,将目标聚簇中处于聚簇中心的主题,作为目标聚簇对应的第一主题;其中,目标聚簇中包含的第三主题的个数大于其他聚簇。

步骤803的执行过程可以参见上述实施例的执行过程,在此不做赘述。

步骤804,对各候选素材的第四主题进行聚类,以确定至少一个第五主题。

在本公开实施例中,可以对各候选素材的第四主题进行聚类,得到多个聚簇,将多个聚簇中的最大簇中处于聚簇中心的主题,作为第五主题。或者,还可以将多个聚簇中的设定个数的最大簇中,处于聚簇中心的主题,作为第五主题,即第五主题的个数可以为多个,本公开对此并不做限制。

步骤805,确定与第一主题关联的第二主题,并确定与第五主题关联的第六主题。

需要说明的是,第二主题的确定过程,可以参见上述任一实施例,在此不做赘述。

在本公开实施例的一种可能的实现方式中,可以确定知识图谱中第五主题对应的节点,根据知识图谱中连接上述第五主题对应的节点的边,以及第五主题对应的节点的邻居节点,确定与第五主题关联的第六主题。也就是说,可以根据第五主题在知识图谱中的实体的上下位,边关系等特征,确定与第五主题关联的第六主题。

在本公开实施例的另一种可能的实现方式中,可以确定与第五主题在同一候选素材中出现的候选主题,根据各候选主题与第五主题共同出现的次数,和/或,根据各候选主题与第五主题在同一候选素材中的位置信息,从各候选主题中确定第六主题。也就是说,可以根据主题的共现频次、主题在素材中的位置等特征,确定与第五主题关联的第六主题。

步骤806,确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件,以及确定与第六主题关联的各第三候选事件。

需要说明的是,第一候选事件和第二候选事件的确定过程可以参见上述任一实施例,在此不做赘述。

在本公开实施例的一种可能的实现方式中,可以对第六主题进行向量化,得到第六主题的向量化表示,将第六主题的向量化表示与事件库中各参考事件的向量化表示进行匹配,以将与第六主题的向量化表示匹配的参考事件作为第三候选事件。

在本公开实施例的另一种可能的实现方式中,可以识别第六主题对应的事件论元,将第六主题对应的事件论元与事件库中各参考事件的事件论元进行匹配,以将与第六主题的事件论元匹配的参考事件,作为第三候选事件。

步骤807,根据各第一候选事件、各第二候选事件以及各第三候选事件之间的关联性,构建事件图谱。

在本公开实施例的一种可能的实现方式中,可以分别识别各第一候选事件、各第二候选事件和各第三候选事件对应的事件类型,根据事件类型,确定各第一候选事件、各第二候选事件和各第三候选事件之间的关联性,以根据关联性,构建事件图谱。

作为一种示例,可以分别从各第一候选事件、各第二候选事件和各第三候选事件中,确定与设定关系对中第一事件类型匹配的第一目标事件,及与设定关系对中第二事件类型匹配的第二目标事件,并确定第一目标事件和第二目标事件之间存在关联关系,从而可以根据存在关联关系的第一目标事件和第二目标事件,生成事件图谱。

在本公开实施例的另一种可能的实现方式中,可以分别识别各第一候选事件、各第二候选事件和第三候选事件中的论元;根据各第一候选事件的论元、各第二候选事件的论元和各第三候选事件的论元,从各候选事件中确定包含相同论元的候选事件,并建立所确定的候选事件之间的关联关系,从而可以根据上述关联关系,生成事件图谱。

步骤808,根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。

步骤808的执行过程可以参见上述任一实施例,在此不做赘述。

本公开实施例的写作素材查询方法,通过同时根据候选素材中的核心主题和次要主题,构建事件图谱,可以提升事件图谱的丰富性,从而可以实现向用户展示丰富主题的素材,在该方法应用于新闻媒体行业的新闻专题撰写时,可以提升新闻工作者的选题策划和采编效率。

与上述图1至图8实施例提供的写作素材查询方法相对应,本公开还提供一种写作素材查询装置,由于本公开实施例提供的写作素材查询装置与上述图1至图8实施例提供的写作素材查询方法相对应,因此在写作素材查询方法的实施方式也适用于本公开实施例提供的写作素材查询装置,在本公开实施例中不再详细描述。

图9为本公开实施例八所提供的写作素材查询装置的结构示意图。

如图9所示,该写作素材查询装置900可以包括:聚类模块901、第一确定模块902、第二确定模块903、构建模块904以及查询模块905。

其中,聚类模块901,用于对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题。

第一确定模块902,用于确定与第一主题关联的第二主题。

第二确定模块903,用于确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件。

构建模块904,用于根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱。

查询模块905,用于根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。

在本公开实施例的一种可能的实现方式中,构建模块904,具体用于:分别识别各第一候选事件和各第二候选事件对应的事件类型;根据事件类型,确定各第一候选事件和各第二候选事件之间的关联性,以根据关联性,构建事件图谱。

在本公开实施例的一种可能的实现方式中,构建模块904,具体用于:分别从各第一候选事件和各第二候选事件中,确定与设定关系对中第一事件类型匹配的第一目标事件,及与设定关系对中第二事件类型匹配的第二目标事件;确定第一目标事件和第二目标事件之间存在关联关系;根据存在关联关系的第一目标事件和第二目标事件,生成事件图谱。

在本公开实施例的一种可能的实现方式中,构建模块904,具体用于:分别识别各第一候选事件和各第二候选事件中的论元;根据各第一候选事件的论元和各第二候选事件的论元,确定包含相同论元的第一候选事件和第二候选事件之间存在关联关系;根据存在关联关系的第一候选事件和第二候选事件,生成事件图谱。

在本公开实施例的一种可能的实现方式中,第二确定模块903,具体用于:对第一主题进行向量化,以得到第一主题的向量化表示;将第一主题的向量化表示与事件库中各参考事件的向量化表示进行匹配,以将与第一主题的向量化表示匹配的参考事件作为第一候选事件;对第二主题进行向量化,以得到第二主题的向量化表示;将第二主题的向量化表示与各参考事件的向量化表示进行匹配,以将与第二主题的向量化表示匹配的参考事件作为第二候选事件。

在本公开实施例的一种可能的实现方式中,第二确定模块903,具体用于:识别第一主题对应的事件论元,并识别第二主题对应的事件论元;将第一主题的事件论元与事件库中各参考事件的事件论元进行匹配,以将与第一主题的事件论元匹配的参考事件,作为第一候选事件;将第二主题的事件论元与各参考事件的事件论元进行匹配,以将与第二主题的事件论元匹配的参考事件,作为第二候选事件。

在本公开实施例的一种可能的实现方式中,聚类模块901,具体用于:搜索发布时间与当前时间处于设定范围内的素材,作为候选素材;针对每个候选素材,抽取候选素材中重要程度最高的第三主题;对各第三主题进行聚类,得到多个聚簇;从多个聚簇中确定目标聚簇,其中,目标聚簇中包含的第三主题的个数大于其他聚簇;将目标聚簇中处于聚簇中心的主题,作为第一主题。

在本公开实施例的一种可能的实现方式中,聚类模块901,还用于针对每个候选素材,抽取候选素材中的至少一个第四主题;其中,第四主题的重要程度低于第三主题;对各候选素材的第四主题进行聚类,以确定至少一个第五主题。

第一确定模块902,还用于确定与第五主题关联的第六主题。

第二确定模块903,还用于确定与第六主题关联的各第三候选事件。

在本公开实施例的一种可能的实现方式中,构建模块904,具体用于:根据各第一候选事件、各第二候选事件以及各第三候选事件之间的关联性,构建事件图谱。

在本公开实施例的一种可能的实现方式中,第一确定模块902,具体用于:确定知识图谱中第一主题对应的目标节点;根据知识图谱中连接目标节点的边,以及目标节点的邻居节点,确定与第一主题关联的第二主题。

在本公开实施例的一种可能的实现方式中,第一确定模块902,具体用于:确定与第一主题在同一候选素材中出现的候选主题;根据各候选主题与第一主题共同出现的次数,和/或,根据各候选主题与第一主题在同一候选素材中的位置信息,从各候选主题中确定第二主题。

本公开实施例的写作素材查询装置,通过对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题,并确定与第一主题关联的第二主题,之后,可确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件,以根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱,并根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。由此,将与待写作的目标事件相关的关联事件作为写作素材,从而向用户展示上述写作素材,可以避免用户逐个查看并筛选素材,可以提升用户的写作效率。并且,写作素材可为多个主题关联的事件,可以便于用户进行思维发散与参考辅助写作,提升写作质量。

为了实现上述实施例,本公开还提供一种电子设备,电子设备可以包括上述实施例中的主播客户端或服务端,该电子设备可以包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开上述任一实施例提出的写作素材查询方法。

为了实现上述实施例,本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开上述任一实施例提出的写作素材查询方法。

为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本公开上述任一实施例提出的写作素材查询方法。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。其中,电子设备可以包括上述实施例中的服务端、客户端。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示,设备1000包括计算单元1001,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)1002中的计算机程序或者从存储单元1007加载到RAM(Random AccessMemory,随机访问/存取存储器)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。I/O(Input/Output,输入/输出)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如上述写作素材查询方法。例如,在一些实施例中,上述写作素材查询方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元10010而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的写作素材查询方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述写作素材查询方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案,通过对多个候选素材所提取的主题进行聚类,以确定目标聚簇对应的第一主题,并确定与第一主题关联的第二主题,之后,可确定与第一主题关联的各第一候选事件,并确定与第二主题关联的各第二候选事件,以根据各第一候选事件和各第二候选事件之间的关联性,构建事件图谱,并根据待写作的目标事件,查询事件图谱,以将目标事件相关的关联事件作为写作素材。由此,将与待写作的目标事件相关的关联事件作为写作素材,从而向用户展示上述写作素材,可以避免用户逐个查看并筛选素材,可以提升用户的写作效率。并且,写作素材可为多个主题关联的事件,可以便于用户进行思维发散与参考辅助写作,提升写作质量。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号