首页> 中国专利> 行业热点发现方法及装置

行业热点发现方法及装置

摘要

本申请涉及一种行业热点发现方法及装置,行业热点发现方法包括获取行业数据;对行业数据进行噪声过滤得到低噪声行业数据,根据预设维度从低噪声行业数据中提取针对性行业数据,对针对性行业数据进行聚类分析得到行业热点,通过对行业数据进行噪声过滤得到低噪声行业数据能够过滤掉数据中的噪声数据,排除低质量数据干扰,提高数据的纯度,根据预设维度从低噪声行业数据中提取针对性行业数据,可以缩小数据的选择范围,提高数据的精准度,从而使得行业热点数据具有较高纯度和精度,提高热点数据质量,在实际应用中取得较好的效果。

著录项

  • 公开/公告号CN114969248A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 北京智慧星光信息技术有限公司;

    申请/专利号CN202210420442.6

  • 发明设计人 郑才松;李青龙;彭璿韬;

    申请日2022-04-20

  • 分类号G06F16/33(2019.01);G06F16/335(2019.01);G06F16/35(2019.01);

  • 代理机构北京细软智谷知识产权代理有限责任公司 11471;

  • 代理人葛钟

  • 地址 100089 北京市海淀区海淀大街8号A座22层A区

  • 入库时间 2023-06-19 16:36:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022104204426 申请日:20220420

    实质审查的生效

说明书

技术领域

本申请属于自然预语言处理技术领域,具体涉及一种行业热点发现方 法及装置。

背景技术

行业中的新鲜热点可以用于分析企业各级组织的趋势动态,为相关人 员或用户提供热点分析,热点新闻汇编、新事件新闻汇编功能,协助开展 情报收集工作。舆情分析中,现有的行业热点发现方法通常是人工筛查, 这往往需要耗费大量的时间和精力。相关技术中,通过人工智能算法挖掘 行业热点,但由于挖掘信息庞大,发现的行业热点交杂很多噪音,热点数 据质量低,未能在实际应用中取得较好的效果。

发明内容

为至少在一定程度上克服由于行业热点信息挖掘的数据庞大,发现的 行业热点交杂很多噪音,影响热点数据质量的问题,本申请提供一种行业 热点发现方法及装置。

第一方面,本申请提供一种行业热点发现方法,包括:

获取行业数据;

对所述行业数据进行噪声过滤得到低噪声行业数据;

根据预设维度从所述低噪声行业数据中提取针对性行业数据;

对所述针对性行业数据进行聚类分析得到行业热点。

进一步的,所述对所述行业数据进行噪声过滤得到低噪声行业数据, 包括:

通过噪声词典过滤行业数据中的基本噪声数据;

根据所述基本噪声数据获取噪声信源;

根据所述噪声信源过滤所述行业数据中的基本噪声数据对应的噪声信 源,得到初级过滤行业数据。

进一步的,所述对所述行业数据进行噪声过滤得到低噪声行业数据, 还包括:

通过所述噪声词典和噪声信源获取噪声数据;

根据行业数据对应的媒体类型,获取预设数量的非噪声数据;

根据所述噪声数据和非噪声数据构建噪声数据集;

基于所述噪声数据集训练预设噪声模型;

将所述初级过滤行业数据输入训练好的噪声模型,得到低噪声行业数 据。

进一步的,所述预设维度为发布时间,所述根据预设维度从所述低噪 声行业数据中提取针对性行业数据,包括:

从所述低噪声行业数据中提取预设发布时间范围内的行业数据。

进一步的,所述预设维度为制定行业信源,所述根据预设维度从所述 低噪声行业数据中提取针对性行业数据,包括:

从所述低噪声行业数据中提取制定行业信源对应的行业数据。

进一步的,所述对所述针对性行业数据进行聚类分析得到行业热点, 包括:

将所述针对性行业数据中进行分割,得到数据段;

对每个数据段中关键数据进行分词,计算出每个关键数据的TF-IDF 权重向量;

将每个数据段中所有TF-IDF权重向量输入DBSCAN算法,输出每个数 据段中每个关键数据对应的标签,相同的标签聚类到同一个簇;

统计每个数据段中每个簇中关键数据的数量,根据关键数据数量选取 对应数据段中第一预设数量的簇;

将每个数据段中第一预设数量的簇中的关键数据进行汇集,对汇集后 关键数据重新进行聚类得到针对性行业数据中第二预设数量的簇,将第二 预设数量的簇中关键数据作为行业热点。

进一步的,还包括:

获取第二预设数量的簇中每个簇内每个关键数据对应有发布时间和信 源;

计算时间特征得分和信源特征得分;

根据所述时间特征得分和信源特征得分计算每个簇的综合得分;

根据每个簇的综合得分选取第三预设数量的簇;

按照预设信用级别选取第三预设数量的簇中的关键数据作为行业热 点。

进一步的,所述关键数据为标题数据。

进一步的,所述获取行业数据,包括:

按照预设时间段间隔从事务消息队列中获取流式数据;

通过预设行业标签字段,从流式数据中选取行业数据,所述行业数据 包括标题、url和网站字段。

第二方面,本申请提供一种行业热点发现装置,包括:

获取模块,用于获取行业数据;

过滤模块,用于对所述行业数据进行噪声过滤得到低噪声行业数据;

提取模块,用于根据预设维度从所述低噪声行业数据中提取针对性行 业数据;

聚类模块,用于对所述针对性行业数据进行聚类分析得到行业热点。

本申请的实施例提供的技术方案可以包括以下有益效果:

本发明实施例提供的行业热点发现方法及装置,通过获取行业数据; 对行业数据进行噪声过滤得到低噪声行业数据,根据预设维度从低噪声行 业数据中提取针对性行业数据,对针对性行业数据进行聚类分析得到行业 热点,通过对行业数据进行噪声过滤得到低噪声行业数据能够过滤掉数据 中的噪声数据,排除低质量数据干扰,提高数据的纯度,根据预设维度从 低噪声行业数据中提取针对性行业数据,可以缩小数据的选择范围,提高数据的精准度,从而使得行业热点数据具有较高纯度和精度,提高热点数 据质量,在实际应用中取得较好的效果。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释 性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申 请的实施例,并与说明书一起用于解释本申请的原理。

图1为本申请一个实施例提供的一种行业热点发现方法的流程图。

图2为本申请另一个实施例提供的一种行业热点发现方法的流程图。

图3为本申请另一个实施例提供的一种行业热点发现方法的流程图。

图4为本申请一个实施例提供的一种行业热点发现装置的功能结构 图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技 术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施 例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员 在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申 请所保护的范围。

图1为本申请一个实施例提供的行业热点发现方法的流程图,如图1 所示,该行业热点发现方法包括:

S11:获取行业数据;

S12:对行业数据进行噪声过滤得到低噪声行业数据;

S13:根据预设维度从低噪声行业数据中提取针对性行业数据;

S14:对针对性行业数据进行聚类分析得到行业热点。

传统行业热点发现方法通过人工智能算法挖掘行业热点,但由于挖掘 信息庞大,发现的行业热点交杂很多噪音,热点数据质量低,未能在实际 应用中取得较好的效果。

本实施例中,低噪声行业数据是指过滤掉大部分噪声数据的行业数据, 针对性行业数据是指根据用户需要从低噪声行业数据或行业数据中筛选出 所需要具有针对性的行业数据。

本实施例中,通过获取行业数据;对行业数据进行噪声过滤得到低噪 声行业数据,根据预设维度从低噪声行业数据中提取针对性行业数据,对 针对性行业数据进行聚类分析得到行业热点,通过对行业数据进行噪声过 滤得到低噪声行业数据能够过滤掉数据中的噪声数据,排除低质量数据干 扰,提高数据的纯度,根据预设维度从低噪声行业数据中提取针对性行业 数据,可以缩小数据的选择范围,提高数据的精准度,从而使得行业热点 数据具有较高纯度和精度,提高热点数据质量,在实际应用中取得较好的 效果。

本发明实施例提供另一种行业热点发现方法,如图2所示的流程图, 该行业热点发现方法包括:

S201:按照预设时间段间隔从事务消息队列中获取流式数据;

预设时间段间隔例如选取四个小时,本领域技术人员可根据实际情况 调整时间段间隔大小。

S202:通过预设行业标签字段,从流式数据中选取行业数据,所述行 业数据包括标题、url和网站字段;

S203:通过噪声词典过滤行业数据中的基本噪声数据;

本实施例中,通过观察大量行业数据中的关键数据,获取关键数据对 应的常见噪声词,构建噪声词典。通过噪声词典过滤的大量噪声数据。

S204:根据基本噪声数据获取噪声信源;

S205:根据噪声信源过滤行业数据中的基本噪声数据对应的噪声信源, 得到初级过滤行业数据。

对行业数据网站域名统计,统计数量靠前的出现噪声的信源,人工审 核后确定为噪声信源,统计发现,数据通过噪声词典和噪声信源后,能过 滤掉30%左右的噪声数据,大大提升数据质量。

S206:根据噪声数据和非噪声数据构建噪声数据集;

一些实施例中,噪声数据通过噪声词典和噪声信源获取噪声数据;非 噪声数据根据行业数据对应的媒体类型获取,媒体类型例如为新闻、微信、 平面媒体等,需要说明的是,非噪声数据与噪声数据数量成一定比例,比 例值可根据用户需要设置。

S207:基于噪声数据集训练预设噪声模型;

噪声模型例如选取fastext训练模型,fastext训练模型能够在百万数据 数据集上快速训练模型,方便快速输出迭代结果。对于噪声数据,设置一 定阈值,超过阈值即为噪声。训练好的噪声模型识别噪声准确率能达到 90%。

S208:将初级过滤行业数据输入训练好的噪声模型,得到低噪声行业 数据。

单纯通过噪声词典和噪声信源,虽然能够过滤掉大部分的噪声数据, 但无法覆盖全部的噪声数据,通过训练噪声模型,发现噪声数据的规律, 尽可能扩大过滤噪声数据的覆盖范围,以得到含噪声量较少的低噪声行业 数据

S209:根据预设维度从低噪声行业数据中提取针对性行业数据;

一些实施例中,预设维度为发布时间,根据预设维度从所述低噪声行 业数据中提取针对性行业数据,包括:

从低噪声行业数据中提取预设发布时间范围内的行业数据。

热点数据跟发布时间息息相关,尽可能选取最近的数据,当前选取前 一天到当下的数据。

一些实施例中,预设维度为制定行业信源,根据预设维度从所述低噪 声行业数据中提取针对性行业数据,包括:

从低噪声行业数据中提取制定行业信源对应的行业数据。

为了不同行业的热点发现,提前制定行业信源,根据不同的行业选取 不同的信源过滤数据。

S210:对针对性行业数据进行聚类分析得到行业热点。

本实施例提供的行业热点发现方法,为确保最终热点数据的质量,需 要在数据的源头提高数据的纯度,通过噪声词典、信源和噪声模型能够过 滤掉行业数据中的噪声数据,排除噪声数据干扰,提高行业数据的纯度; 通过针对性筛选,缩小数据的选择范围,提高数据的精准度,多种过滤方 法结合,能够有效提高数据纯度和精度,为行业热点的确定打下坚实的基 础。

图3为本申请另一个实施例提供的行业热点发现方法的流程图,如图 3所示,该行业热点发现方法包括:

S301:将针对性行业数据中进行分割,得到数据段;

S302:对每个数据段中标题数据进行分词,计算出每个标题数据的 TF-IDF权重向量;

聚类选取标题数据作为关键数据,是由于标题数据长度短,计算量小, 能够在较大的数据上取得较好的聚类结果。

S303:将每个数据段中所有TF-IDF权重向量输入DBSCAN算法,输出 每个数据段中每个标题数据对应的标签,相同的标签聚类到同一个簇;

由于无法提前获知热点的数目,在数据聚类方法的选取上,选取不固 定聚类数量的DBSCAN方法。

考虑到DBSCAN在较大规模数据上聚类耗时长的问题,选取将数据分割 为几段,每段进行聚类,选取每段的聚类topN结果。再将每段的topN结 果汇集在一起,再进行二次聚类,再选取聚类topN结果。

这里采取的聚类方法是DBSCAN,文本特征选择是TF-IDF。

DBSCAN(Density—Based Spatial Clustering of Application with Noise)算法是一种典型的基于密度的聚类方法。它将簇定义为密度相连的 点的最大集合,能够把具有足够密度的区域划分为簇,并可以在有噪音的 空间数据集中发现任意形状的簇。

DBSCAN算法中有两个重要参数:Eps和MinPtS。Eps是定义密度时 的邻域半径,MinPts为定义核心点时的阈值。所谓核心点,就是在半径 Eps内含有超过MinPts数目的点。

Eps选取跟选取的文本距离计算方式有关。本文选择余弦距离作为文 本距离的计算方式。在将文本向量化的过程中,分别选取了TF和TF-IDF 两种方式计算词权重。实验结果表明,TF-IDF的结果比TF结果要好一些。

TF是词频(Term Frequency)。词频(TF)表示词条(关键字)在文本 中出现的频率。

词频(term frequency,TF)指的是某一个给定的词语在该文件中出 现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防 止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词 频,而不管该词语重要与否。)

逆向文件频率(inverse document frequency,IDF)IDF的主要思 想是:如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类 别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之 文件的数目,再将得到的商取对数得到。

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文 件频率,可以产生出高权重的TF-IDF,TF-IDF=TF*TDF。因此,TF-IDF 倾向于过滤掉常见的词语,保留重要的词语。

S304:统计每个数据段中每个簇中标题数据的数量,根据标题数据数 量选取对应数据段中第一预设数量的簇;

第一预设数量例如为50。

S305:将每个数据段中第一预设数量的簇中的标题数据进行汇集,对 汇集后标题数据重新进行聚类得到针对性行业数据中第二预设数量的簇, 将第二预设数量的簇中标题数据作为行业热点。

第二预设数量例如为20

S306:获取第二预设数量的簇中每个簇内每个关键数据对应有发布时 间和信源;

S307:计算时间特征得分和信源特征得分;

S308:根据时间特征得分和信源特征得分计算每个簇的综合得分;

S309:根据每个簇的综合得分选取第三预设数量的簇;

S310:按照预设信用级别选取第三预设数量的簇中的标题数据作为行 业热点。

在上述二次聚类的结果中,加入发布时间特征和信源级别特征,优化 聚类结果。发布时间特征,主要考虑到距离当前时间越近,热点权重越高 的因素。信源级别特征,主要考虑到不同的信源,发布内容的重要性不同。

对于topN中每个簇,簇内每个标题数据对应有发布时间和信源。

时间特征计算得分:

信源特征计算得分:

综合得分:

每个簇内计算出每条数据的得分累加得到簇的得分,按照簇得分排序。 然后选取簇中一条数据,选取原则是优先选取A级信源数据,没有再选取 B级信源数据,都没有则随机选取,即为该簇中热点数据。

将本申请输出的行业热点与人工筛查的行业热点进行比对,选取特定 时间段数据,以房产行业为例,将人工报告的结果与自动发现的热点进行 匹配,标题相似度大于90%可认为是同一数据。标题相似度计算采用杰卡 德相似度计算,如下公式所示。

将标题看作是词的集合,标题越相近,共有的元素越多。

统计发现,重合度在60%左右,即可证明本申请的实用性,可在实际 应用中取得良好效果。

本实施例中,通过聚类方法,得到行业热点数据,二次聚类、加入发 布时间特征和信源级别特征,优化聚类结果,可以使得该行业热点发现方 法有更好的实用性。

图4为本申请一个实施例提供的行业热点发现装置的功能结构图,如 图4所示,该行业热点发现装置包括:

获取模块41,用于获取行业数据;

过滤模块42,用于对行业数据进行噪声过滤得到低噪声行业数据;

提取模块43,用于根据预设维度从所述低噪声行业数据中提取针对性 行业数据;

聚类模块44,用于对针对性行业数据进行聚类分析得到行业热点。

本实施例中,通过获取模块获取行业数据;过滤模块对行业数据进行 噪声过滤得到低噪声行业数据;提取模块根据预设维度从所述低噪声行业 数据中提取针对性行业数据;聚类模块对针对性行业数据进行聚类分析得 到行业热点,排除低质量数据干扰,提高数据的纯度,可以缩小数据的选 择范围,提高数据的精准度,从而使得行业热点数据具有较高纯度和精度, 提高热点数据质量,在实际应用中取得较好的效果。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一 些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用 于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描 述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解 为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行 指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括 另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能 按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例 所属技术领域的技术人员所理解。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来 实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合 适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现, 和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们 的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻 辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部 或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储 于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤 之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一 个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功 能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为 独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示 例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描 述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例 中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或 示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多 个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施 例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申 请的范围内可以对上述实施例进行变化、修改、替换和变型。

需要说明的是,本发明不局限于上述最佳实施方式,本领域技术人员在 本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作 任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保 护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号