首页> 中国专利> 一种新闻信息处理方法、新闻推荐方法和相关装置

一种新闻信息处理方法、新闻推荐方法和相关装置

摘要

本发明提供一种新闻信息处理方法、新闻推荐方法和相关装置。方法包括:获取新闻的文字内容;对新闻的文字内容进行分词处理,获得多个字词;计算每个字词的词向量;计算每个字词的tfidf值;分别以每个字词的tfidf值为权重,将新闻的所有词向量累加求和,计算得到新闻的特征向量;利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇;将得到的所有类簇以及每个类簇的中心向量存储在数据库中。本发明实现了将相似度较高的新闻分为一个类簇,并将每个类簇存储于数据库中。那么当需要推荐新闻时,本发明可以将该新闻对应的类簇中的其他新闻推荐给用户。

著录项

  • 公开/公告号CN105022840A

    专利类型发明专利

  • 公开/公告日2015-11-04

    原文格式PDF

  • 申请/专利权人 新华网股份有限公司;

    申请/专利号CN201510509331.2

  • 发明设计人 侯立莎;

    申请日2015-08-18

  • 分类号G06F17/30(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人王宝筠

  • 地址 100031 北京市西城区宣武门西大街129号金隅大厦708

  • 入库时间 2023-12-18 11:38:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-06-05

    授权

    授权

  • 2015-12-02

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150818

    实质审查的生效

  • 2015-11-04

    公开

    公开

说明书

技术领域

本发明涉及新闻信息处理技术领域,更具体地说,涉及一种新闻信息处 理方法、新闻推荐方法和相关装置。

背景技术

新闻推荐是指用户在浏览某个新闻时或浏览完新闻后,系统自动给用户 推荐出与用户当前浏览的新闻的内容相关或相似的其他新闻。

目前现有技术中的新闻推荐方法主要包括以下两种:

一种为基于当前新闻内容中的关键词来推荐其他新闻,另一种为根据当 前新闻内容中字词出现的频率来生成空间向量模型,依据空间向量模型来计 算新闻间的相似度,进而推荐与当前新闻内容相似的其他新闻。

然而本发明的发明人对上述现有新闻推荐方法进行研究后发现,对于第 一种基于当前新闻内容中的关键词来推荐其他新闻的方法,由于有些关键词 具有多种含义,例如“苹果”既表示手机,也表示一种水果,那么当用户浏 览完与“苹果”手机相关的新闻后,系统可能会继续为用户推荐与“苹果” 水果有关的其他新闻,此时推荐的新闻内容大多情况下不是用户需要的内容, 新闻推荐准确性降低。而对于现有技术中第二种新闻推荐方法,当新闻数量 较大时,例如有10000篇新闻时,预处理掉噪声词汇之后,大概还会生成几十 万个字词,对于这几十万个字词来生成空间向量模型,该生成的空间向量模 型的维度即为几十万,那么在基于该几十万维度的空间向量模型下计算新闻 相似度时,计算相当复杂、耗时高。

基于上述内容,现有技术的方案均无法准确和高效的为用户实现新闻推 荐

发明内容

有鉴于此,本发明提供一种新闻信息处理方法、新闻推荐方法和相关装 置,以保证高效、准确地为用户实现新闻推荐。技术方案如下:

基于本发明的一方面,本发明提供一种新闻信息处理方法,包括:

获取新闻的文字内容;

对所述新闻的文字内容进行分词处理,获得多个字词;

计算每个字词的词向量;

计算每个字词的词频-逆文档频tfidf值;

分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和, 计算得到所述新闻的特征向量;

利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算, 实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中 心向量;

将得到的所有类簇以及每个类簇的中心向量存储在数据库中;

当需要为用户推荐新闻时,检测用户当前浏览的新闻的正文内容,并从 所述数据库中查找是否存储有与所述用户当前浏览的新闻的正文内容相对应 的特征向量;如果有,将与所述特征向量相对应的类簇中的其他新闻推荐给 用户。

优选地,所述利用分词器对所述新闻的文字内容进行分词处理后,所述 获取多个字词前,所述方法还包括:

将分词处理后得到的所有字词进行预处理,删除垃圾字词。

优选地,所述计算每个字词的词向量包括:

利用word2vec工具计算每个字词的词向量。

优选地,所述计算每个字词的tfidf值包括:

利用tfidf算法计算每个字词的tfidf值。

优选地,文本聚类方法具体为kmeans聚类方法。

基于本发明的另一方面,本发明提供一种新闻推荐方法,其特征在于, 基于前述权利要求任一项所述的新闻信息处理方法,已知每个字词的词向量 和词频-逆文档频tfidf值,所述新闻推荐方法包括:

检测用户当前浏览的新闻的正文内容;

判断数据库中是否存储有与所述用户当前浏览的新闻的正文内容相对应 的特征向量;

如果有,在所述数据库中查找与所述特征向量相对应的类簇;其中每个 类簇包括一中心向量;

将所述类簇中的其他新闻推荐给用户。

优选地,如果没有,对所述用户当前浏览的新闻的文字内容进行分词处 理,获得多个字词;

分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和, 计算得到所述新闻的特征向量;

依据所述特征向量以及各个类簇的中心向量,确定与所述特征向量的距 离值不大于第一预设距离值的中心向量;

将确定的中心向量对应的类簇中的新闻推荐给用户。

优选地,还包括:

当确定出与所述特征向量的距离值不大于第一预设距离值的多个中心向 量时;

依据所述特征向量以及所述多个中心向量分别对应的类簇中的多个候选 新闻的特征向量,计算所述特征向量分别与各个候选新闻的特征向量间的距 离值,将距离值不大于第二预设距离值的候选新闻推荐给用户。

优选地,计算所述特征向量与各个类簇的中心向量的距离值包括:利用 余弦相似性算法计算所述特征向量与各个类簇的中心向量的距离值;

计算所述特征向量与各个候选新闻的特征向量间的距离值包括:利用余 弦相似性算法计算所述特征向量与各个候选新闻的特征向量间的距离值。

基于本发明的再一方面,本发明提供一种新闻信息处理装置,包括:

第一文字内容获取单元,用于获取新闻的文字内容;

分词单元,用于对所述新闻的文字内容进行分词处理,获得多个字词;

第一计算单元,用于计算每个字词的词向量;

第二计算单元,用于计算每个字词的词频-逆文档频tfidf值;

第三计算单元,用于分别以每个字词的tfidf值为权重,将所述新闻的所 有词向量累加求和,计算得到所述新闻的特征向量;

聚类分组单元,用于利用文本聚类方法,将计算得到的所有新闻的特征 向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇, 每个类簇包括一中心向量;

存储单元,用于将得到的所有类簇以及每个类簇的中心向量存储在数据 库中;

第一检测单元,用于检测用户当前浏览的新闻的正文内容;

第一查找单元,用于从所述数据库中查找是否存储有与所述用户当前浏 览的新闻的正文内容相对应的特征向量;

第一新闻推荐单元,用于当所述第一查找单元从所述数据库中查找到存 储有与所述用户当前浏览的新闻的正文内容相对应的特征向量,将与所述特 征向量相对应的类簇中的其他新闻推荐给用户。

优选地,所述分词单元包括:

预处理子单元,用于将所述分词处理后得到的所有字词进行预处理,删 除垃圾字词。

优选地,所述第一计算单元具体用于,利用word2vec工具计算每个字词 的词向量;

所述第二计算单元具体用于,利用tfidf算法计算每个字词的tfidf值;

所述第三计算单元具体用于,利用kmeans聚类方法将计算得到的所有新 闻内容的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称 之为一个类簇,每个类簇包括一中心向量。

基于本发明的再一方面,本发明提供一种新闻推荐装置,其特征在于, 基于前述权利要求任一项所述的新闻信息处理装置,已知每个字词的词向量 和词频-逆文档频tfidf值,所述新闻推荐装置包括:

第二检测单元,用于检测用户当前浏览的新闻的正文内容;

判断单元,用于判断数据库中是否存储有与所述用户当前浏览的新闻的 正文内容相对应的特征向量;

第二查找单元,用于当所述判断单元判断数据库中存储有与所述用户当 前浏览的新闻的正文内容相对应的特征向量时,在所述数据库中查找与所述 特征向量相对应的类簇;其中每个类簇包括一中心向量;

第二新闻推荐单元,用于将所述类簇中的其他新闻推荐给用户。

优选地,还包括:

第二文字内容获取单元,用于当所述判断单元判断数据库中未存储有与 所述用户当前浏览的新闻的正文内容相对应的特征向量时,对所述用户当前 浏览的新闻的文字内容进行分词处理,获得多个字词;

第四计算单元,用于分别以每个字词的tfidf值为权重,将所述新闻的所 有词向量累加求和,计算得到所述新闻的特征向量;

第五计算单元,用于依据所述特征向量以及各个类簇的中心向量,计算 确定与所述特征向量的距离值不大于第一预设距离值的中心向量;

第三新闻推荐单元,用于将确定的中心向量对应的类簇中的新闻推荐给 用户。

优选地,还包括:

第六计算单元,用于当所述第五计算单元确定出与所述特征向量的距离 值不大于第一预设距离值的多个中心向量时,依据所述特征向量以及所述多 个中心向量分别对应的类簇中的多个候选新闻的特征向量,计算所述特征向 量分别与各个候选新闻的特征向量间的距离值;

第四新闻推荐单元,用于将距离值不大于第二预设距离值的候选新闻推 荐给用户。

应用本发明的上述技术方案,本发明提供的新闻信息处理方法包括:获 取新闻的文字内容;对所述新闻的文字内容进行分词处理,获得多个字词; 计算每个字词的词向量;计算每个字词的tfidf(词频-逆文档频)值;分别以 每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所 述新闻的特征向量;利用文本聚类方法,将计算得到的所有新闻的特征向量 进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每 个类簇包括一中心向量。由此可见,本发明实现了对所有新闻的特征向量的 计算,并通过特征向量的聚类计算实现了新闻的分组,即将相似度较高的新 闻分为一个类簇,并将每个类簇存储于数据库中。那么当用户浏览新闻时或 浏览完新闻后,本发明可以依据用户当前浏览的新闻的正文内容,在数据库 中查找该新闻对应的类簇,进而将类簇中的其他新闻推荐给用户。由于每个 类簇中的新闻间都具有很高的相似度,因此保证了新闻推荐的准确性。同时 本发明提供的新闻信息处理方法中涉及的对字词的处理,以及对特征向量的 聚类计算等步骤相比于现有技术中基于空间向量模型计算新闻相似度的方 法,本发明的计算方法简单,效率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种新闻信息处理方法的一种流程图;

图2为本发明提供的一种新闻推荐方法的一种流程图;

图3为本发明提供的一种新闻信息处理装置的结构示意图;

图4为本发明提供的一种新闻推荐装置的结构示意图;

图5为本发明提供的一种新闻推荐装置的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,其示出了本发明提供的一种新闻信息处理方法的一种流程 图,包括:

步骤101,获取新闻的文字内容。

在实际应用过程中,服务器包括一新闻稿件库,该新闻稿件库用于存储 各种新闻。具体在本发明中,本发明会依次获取新闻稿件库中存储的各个新 闻,并依次采用本发明提供的新闻信息处理方法进行处理。为了便于描述, 本发明以处理一条新闻为例进行说明,对于对其他新闻的处理方式同本实施 例描述的处理方式相同,不做进行详细论述。

在本实施例中,首先从新闻稿件库中任意选取一条新闻,获取该新闻的 文字内容。

步骤102,对所述新闻的文字内容进行分词处理,获得多个字词。

具体地,本实施例可以利用分词器对新闻的文字内容进行分词处理,获 得多个字词。

通常,经过分词处理后得到的字词不仅包括例如“苹果”、“手机”、 “电脑”等关键词,还包括标点符号、“的”、“是”等其他无特殊意义的 字词。本发明为了提高字词的处理效率,步骤102在对所述新闻的文字内容 进行分词处理后,还可进一步包括,将分词处理后得到的所有字词进行预处 理,删除垃圾字词。其中垃圾字词即指标点符号、“的”、“是”等其他无 特殊意义的字词。

步骤103,计算每个字词的词向量。

具体地,本实施例利用word2vec工具计算每个字词的词向量。例如计算 “中国”的词向量为[0.121 0.321 0.334 0.584 0.837],本发明利用计算得到的 一组向量值来表示一个字词。

在本实施例中,本发明只是示例性地利用[0.121 0.321 0.334 0.584 0.837] 这五个数字构成的向量来表示“中国”,而在实际应用时,通常每个字词的 词向量都是由200个数字组成。

作为较优的,本发明在计算得到某个字词,如字词A的词向量后,便将该 字词A的词向量进行保存。当后续在需要计算该字词A的词向量,例如本篇新 闻的文字内容中出现多次字词A需要计算词向量,或在计算其他新闻的文字内 容时,出现字词A需要计算词向量时,本发明无需再去重新计算字词A的词向 量,而可以直接通过查找存储的字词A的词向量,来直接获知字词A的词向量, 大大节省了服务器的处理时间,提高了服务器的处理效率。

步骤104,计算每个字词的tfidf值。

具体地,本实施例利用tfidf算法计算每个字词的tfidf值。

在本发明中,每个字词的tfidf值的大小反应了该字词对新闻的贡献度的大 小,tfidf值越大表示该字词越有意义。

同理作为较优的,本发明在计算得到某个字词,如字词A的tfidf值后,也 可将该字词A的tfidf值进行保存。当后续在需要计算该字词A的tfidf值时,直接 通过查找存储的字词A的tfidf值,来直接获知字词A的tfidf值,大大节省了服务 器的处理时间,提高了服务器的处理效率。

步骤105,分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累 加求和,计算得到所述新闻的特征向量。

具体地,本实施例将获得的字词的tfidf值与之对应的词向量相乘,进而将 所有字词相乘后的结果累加求和,计算得到新闻的特征向量。例如,经过步 骤103计算得到雅虎的词向量为[0.1 0.1 0.1 0.1],副总裁的词向量为[0.2 0.2 0.2 0.2],张晨的词向量为[0.3 0.3 0.3 0.3],京东的词向量为[0.4 0.4 0.4 0.4],同时, 经过步骤104计算得到雅虎的tfidf值为0.8,副总裁的tfidf值为0.2,张晨的tfidf 值为0.5,京东的tfidf值为0.9,那么本实施例步骤105,分别以每个字词的tfidf 值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向 量具体为:0.8*[0.1 0.1 0.1 0.1]+0.2*[0.2 0.2 0.2 0.2]+0.5*[0.3 0.3 0.3 0.3]+0.9*[0.4 0.4 0.4 0.4]=[0.63 0.63 0.63 0.63],即该新闻的特征向量为[0.63 0.63 0.63 0.63]。

步骤106,利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚 类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇 包括一中心向量。

具体地,本实施例利用kmeans聚类方法将计算得到的所有新闻的特征向 量进行聚类计算,从而实现对不同新闻的分组。其中每一组新闻称之为一个 类簇,每个类簇包括一中心向量。

步骤107,将得到的所有类簇以及每个类簇的中心向量存储在数据库中。

本实施例中的数据库可以具体为redis数据库。

经过本实施例上述步骤101-107的处理,本发明实现了对新闻稿件库中的 每一条新闻的处理,通过分别计算每条新闻的特征向量,进一步实现了将不 同新闻分组存储的目的。

因此,当需要为用户推荐新闻时,例如用户浏览新闻中或浏览完新闻后, 检测用户当前浏览的新闻的正文内容,并从所述数据库中查找是否存储有与 所述用户当前浏览的新闻的正文内容相对应的特征向量;如果有,依据该特 征向量即可确定所述用户当前浏览的新闻归属的类簇,进而将该类簇中的其 他新闻推荐给用户。

因此应用本发明的上述技术方案,本发明提供的新闻信息处理方法包括: 获取新闻的文字内容;对所述新闻的文字内容进行分词处理,获得多个字词; 计算每个字词的词向量;计算每个字词的tfidf值;分别以每个字词的tfidf值为 权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量; 利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现 将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向 量。由此可见,本发明实现了对所有新闻的特征向量的计算,并通过特征向 量的聚类计算实现了新闻的分组,即将相似度较高的新闻分为一个类簇,并 将每个类簇存储于数据库中。那么当用户浏览新闻时或浏览完新闻后,本发 明可以依据用户当前浏览的新闻的正文内容,在数据库中查找该新闻对应的 类簇,进而将类簇中的其他新闻推荐给用户。由于每个类簇中的新闻间都具 有很高的相似度,因此保证了新闻推荐的准确性。同时本发明提供的新闻信 息处理方法中涉及的对字词的处理,以及对特征向量的聚类计算等步骤相比 于现有技术中基于空间向量模型计算新闻相似度的方法,本发明的计算方法 简单,效率更高。

基于本发明前文提供的一种新闻信息处理方法,本发明还提供一种新闻 推荐方法,在本发明具体实现新闻推荐方法时,本发明已知每个字词的词向 量和tfidf值,所述新闻推荐方法如图2所示,具体包括:

步骤201,检测用户当前浏览的新闻的正文内容。

步骤202,判断数据库中是否存储有与所述用户当前浏览的新闻的正文内 容相对应的特征向量。如果有,执行步骤203,如果没有,执行步骤205。

步骤203,在所述数据库中查找与所述特征向量相对应的类簇。

在前述实施例提供的新闻信息处理方法中,数据库中存储了不同类簇, 每个类簇包括多个相似度很高的新闻,且每个类簇包括一中心向量。同时, 数据库中还存储了每个新闻与特征向量间的对应关系,例如新闻A对应特征向 量a,新闻B对应特征向量b,那么本实施例在检测到用户当前浏览的新闻的正 文内容后,可以依据该新闻的正文内容查找与所述新闻的正文内容相对应的 特征向量,当查找到与所述新闻的正文内容相对应的特征向量时,即可确定 该新闻归属的类簇。

步骤204,将所述类簇中的其他新闻推荐给用户。

步骤205,对所述用户当前浏览的新闻的文字内容进行分词处理,获得多 个字词。

步骤206,分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累 加求和,计算得到所述新闻的特征向量。

因为本发明服务器会将计算每个字词得到的词向量和tfidf值进行保存,那 么当服务器需要计算该新闻的特征向量时,可直接利用已知的词向量和tfidf 值进行计算。

当然,如果该新闻的文字内容中包括服务器中未保存的字词的词向量和 tfidf值,例如出现了新兴词汇,本发明还会去计算该未保存的字词的词向量和 tfidf值,进而计算该新闻的特征向量。

步骤207,依据所述特征向量以及各个类簇的中心向量,确定与所述特征 向量的距离值不大于第一预设距离值的中心向量。

当判断数据库中未存储有与所述用户当前浏览的新闻的正文内容相对应 的特征向量时,表明用户当前查看的新闻为最近刚刚更新的一件新新闻,此 时服务器需要采用步骤205-步骤206的实现方法对该新闻进行处理,计算得到 该新闻的特征向量。

当计算得到该新闻的特征向量后,依据所述特征向量以及各个类簇的中 心向量,计算所述特征向量与各个类簇的中心向量间的距离值,较优的,本 实施例利用余弦相似性算法计算所述特征向量与各个类簇的中心向量的距离 值,进而确定出与所述特征向量的距离值不大于第一预设距离值的中心向量。 本实施例中较优的,优先确定出与所述特征向量的距离值最小的三个中心向 量,即确定出与所述特征向量距离最近的三个类簇。

其中,第一预设距离值可实际需求灵活设定。

步骤208,将确定的中心向量对应的类簇中的新闻推荐给用户。

在确定出与所述特征向量的距离值不大于第一预设距离值的中心向量 后,将该确定的中心向量对应的类簇中的新闻推荐给用户。

此外较优的,当本发明确定出与所述特征向量的距离值不大于第一预设 距离值的多个中心向量时,本发明还可以进一步包括:

步骤209,依据所述特征向量以及所述多个中心向量分别对应的类簇中的 多个候选新闻的特征向量,计算所述特征向量分别与各个候选新闻的特征向 量间的距离值,将距离值不大于第二预设距离值的候选新闻推荐给用户。

当本发明确定出与所述特征向量的距离值不大于第一预设距离值的多个 中心向量时,其每个中心向量对应的类簇都会给出多个候选新闻,本发明为 了保证将与用户当前浏览的新闻相似度最高的新闻优先推荐给用户,本发明 还会在依次计算所述特征向量分别与各个候选新闻的特征向量间的距离值, 具体地,可以利用余弦相似性算法计算所述特征向量与各个候选新闻的特征 向量间的距离值,进而将距离值不大于第二预设距离值的候选新闻推荐给用 户。

其中,第二预设距离值可实际需求灵活设定。

应用本发明提供的新闻推荐方法,本发明实现了将与用户当前浏览的新 闻相似度最高的新闻优先推荐给用户,提高了系统推荐新闻的准确性。

基于前文本发明提供的一种新闻信息处理方法,本发明还提供一种新闻 信息处理装置,如图3所示,包括:第一文字内容获取单元10、分词单元20、 第一计算单元30、第二计算单元40、第三计算单元50、聚类分组单元60、存 储单元70、第一检测单元80、第一查找单元90和第一新闻推荐单元100。其中,

第一文字内容获取单元10,用于获取新闻的文字内容;

分词单元20,用于对所述新闻的文字内容进行分词处理,获得多个字词;

第一计算单元30,用于计算每个字词的词向量;

第二计算单元40,用于计算每个字词的tfidf值;

第三计算单元50,用于分别以每个字词的tfidf值为权重,将所述新闻的 所有词向量累加求和,计算得到所述新闻的特征向量;

聚类分组单元60,用于利用文本聚类方法,将计算得到的所有新闻的特 征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类 簇,每个类簇包括一中心向量;

存储单元70,用于将得到的所有类簇以及每个类簇的中心向量存储在数 据库中;

第一检测单元80,用于检测用户当前浏览的新闻的正文内容;

第一查找单元90,用于从所述数据库中查找是否存储有与所述用户当前 浏览的新闻的正文内容相对应的特征向量;

第一新闻推荐单元100,用于当所述第一查找单元90从所述数据库中查 找到存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量,将与 所述特征向量相对应的类簇中的其他新闻推荐给用户。

其中较优的,分词单元20包括:预处理子单元21,用于将所述分词处理 后得到的所有字词进行预处理,删除垃圾字词。

其中所述第一计算单元30具体用于,利用word2vec工具计算每个字词 的词向量;

所述第二计算单元40具体用于,利用tfidf算法计算每个字词的tfidf值;

所述第三计算单元50具体用于,利用kmeans聚类方法将计算得到的所 有新闻内容的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新 闻称之为一个类簇,每个类簇包括一中心向量。

基于前文本发明提供的一种新闻推荐方法,本发明还提供一种新闻推荐 装置,如图4所示,包括:第二检测单元200、判断单元300、第二查找单元400 和第二新闻推荐单元500。其中,

第二检测单元200,用于检测用户当前浏览的新闻的正文内容;

判断单元300,用于判断数据库中是否存储有与所述用户当前浏览的新闻 的正文内容相对应的特征向量;

第二查找单元400,用于当所述判断单元300判断数据库中存储有与所述 用户当前浏览的新闻的正文内容相对应的特征向量时,在所述数据库中查找 与所述特征向量相对应的类簇;其中每个类簇包括一中心向量;

第二新闻推荐单元500,用于将所述类簇中的其他新闻推荐给用户。

此外较优的,如图5所示,还包括:

第二文字内容获取单元600,用于当所述判断单元判断数据库中未存储有 与所述用户当前浏览的新闻的正文内容相对应的特征向量时,对所述用户当 前浏览的新闻的文字内容进行分词处理,获得多个字词;

第四计算单元700,用于分别以每个字词的tfidf值为权重,将所述新闻 的所有词向量累加求和,计算得到所述新闻的特征向量;

第五计算单元800,用于依据所述特征向量以及各个类簇的中心向量,计 算确定与所述特征向量的距离值不大于第一预设距离值的中心向量;

第三新闻推荐单元900,用于将确定的中心向量对应的类簇中的新闻推荐 给用户。

以及,

第六计算单元1000,用于当所述第五计算单元800确定出与所述特征向 量的距离值不大于第一预设距离值的多个中心向量时,依据所述特征向量以 及所述多个中心向量分别对应的类簇中的多个候选新闻的特征向量,计算所 述特征向量分别与各个候选新闻的特征向量间的距离值;

第四新闻推荐单元2000,用于将距离值不大于第二预设距离值的候选新 闻推荐给用户。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个 实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似 的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相 似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……” 限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存 在另外的相同要素。

以上对本发明所提供的一种新闻信息处理方法、新闻推荐方法和相关装 置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行 了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想; 同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及 应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明 的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号