首页> 中国专利> 基于科技文档的领域趋势分析方法及系统

基于科技文档的领域趋势分析方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及数据信息处理技术领域，公开了基于科技文档的领域趋势分析方法，包括：收集论文和专利数据后进行整理，形成科技文档后储存；自定义查询属性值生成科技文档筛选规则；将筛选规则划分为三种类别并按照顺序对所述科技文档进行操作；根据最终得到的所述科技文档的数据分析查询属性在历年的发展趋势。可以通过成熟的爬虫方案获取两种科技文档，并且对文档进行元数据识别和存储，方便后续的属性查询和趋势分析；从多种角度、多种属性进行对科技文档进行分析，最后得出领域趋势分析，能够实现领域趋势分析功能，并且结果展示效果丰富，结果完整。

著录项

公开/公告号CN116204608A

专利类型发明专利
公开/公告日2023-06-02

原文格式PDF
申请/专利权人安徽大学;
展开▼

申请/专利号CN202310228033.0
发明设计人赵姝;王锦涛;谭世成;陈洁;段震;方铿懿;
展开▼

申请日2023-03-10
分类号G06F16/33(2019.01);G06F16/338(2019.01);G06F16/35(2019.01);
代理机构安徽新越诚途专利代理事务所(普通合伙) 34261;
代理人吴伟晨
地址 230000 安徽省合肥市肥西路3号
入库时间 2023-06-19 18:59:04

法律信息

法律状态公告日

法律状态信息

法律状态
2023-06-20

实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2023102280330 申请日:20230310

实质审查的生效
2023-06-02

公开

发明专利申请公布

说明书

技术领域

本发明涉及数据信息处理技术领域，具体涉及基于科技文档的领域趋势分析方法及系统。

背景技术

随着科学技术的发展，每个行业的技术都在不断迭代进步。随着技术日新月异的迭代更新，人们难以捕捉技术的发展趋势。对技术发展趋势进行准确的预测，能够为企业制定战略政策和调整技术方向提供重要帮助。在传统方法中，一般需要人工查找大量的行业技术资料来进行复杂的数据分析和预测，非常浪费人力物力，效率很低，而且通过人工方式进行分析的难度较高，难以准确预测出每个行业下的技术发展趋势。

如专利公开号为CN111008874A的技术趋势预测方法、系统及存储介质，公开了确认待预测的技术领域；选取属于技术领域的领先企业，以及领先企业的各时间阶段产品信息；选取产品信息中的关键词建立词库；选取属于技术领域的在线社区，以及在线社区中的所有用户的评论信息；根据评论信息和所述词库进行处理，获得词库中关键词与用户的评论信息的关联程度和出现时间的早晚程度；根据关联程度和所述早晚程度，获得用户对应的领先度，并根据领先度从用户中确定领先用户；获取领先用户的评论信息，解析评论信息以预测技术发展趋势，如此可利用专业领域评论信息和专利信息以及时间信息之间的关联度构建模型，从而找出领先用户，通过领先用户的评论预测技术，

但是评论信息和专利信息中的关键词获取操作并不相同，考虑两种不同行文的文本，需要不同的关键词获取模型，错误的关键字会直接导致二者关联度出现错误，也没有对用户评论做筛选，无效的评论或者水军可能会对模型造成干扰，也不能多角度进行论文技术趋势分析。

发明内容

本发明的目的在于提供基于科技文档的领域趋势分析方法及系统，解决以下技术问题：

如何提供能够对科技文档进行多属性分析、且方便用户交互的领域趋势分析方法及系统。

本发明的目的可以通过以下技术方案实现：

基于科技文档的领域趋势分析方法，包括：

步骤S10，收集论文和专利数据后进行整理，形成科技文档后储存；

步骤S20，自定义查询属性值生成科技文档筛选规则；

步骤S30，将筛选规则划分为三种类别并按照顺序对所述科技文档进行操作；

步骤S40，根据最终得到的所述科技文档的数据分析查询属性在历年的发展趋势。

通过上述技术方案，可以通过成熟的爬虫方案获取两种科技文档，并且对文档进行元数据识别和存储，方便后续的属性查询和趋势分析；可以从多种角度、多种属性进行对科技文档进行分析，最后得出领域趋势分析；另外可让用户有更多的交互感，自由度，用户可以按照自己的需求进行属性设定，设计多种趋势分析参数，并根据用户的自定义，给出更多样化的分析结果；同时提出一个多单元、多模块的系统，能够完整的实现领域趋势分析功能，并且结果展示效果丰富，结果完整。

作为本发明进一步的方案：所述进行整理的方法包括：

步骤S101，查询本地是否存在科技文档；若是，进入步骤S103，否则进入步骤S102；

步骤S102，爬取所述论文和专利数据；

步骤S103，对所述论文和专利数据进行元数据划分；

步骤S104，以文档为单位进行元数据储存至数据库。

作为本发明进一步的方案：所述步骤S20包括：

步骤S201，确定查询属性；

步骤S202，构建筛选规则；

步骤S203，提交最终的查询请求。

作为本发明进一步的方案：所述步骤S30包括：

步骤S301，将筛选规则分为统计规则、过滤规则和排序规则；

步骤S302，根据所述统计规则查询数据库；

步骤S303，根据所述过滤规则精选查询后结果；

步骤S303，根据所述排序规则处理过滤后结果。

作为本发明进一步的方案：所述步骤S40包括：

步骤S401，页面展示属性趋势结果；

步骤S402，点击单个属性结果展示科技文档统计结果；

步骤S403，点击单个所述科技文档展示所述科技文档字段信息；

步骤S404，点击单个所述科技文档字段信息展示所述科技文档详细信息。

基于科技文档的领域趋势分析系统，包括：

收集整理模块，用于收集论文和专利数据后进行整理，形成科技文档后储存；

规则设定模块，用于自定义查询属性值生成科技文档筛选规则；

筛选执行模块，用于将筛选规则划分为三种类别并按照顺序对所述科技文档进行操作；

趋势查询显示模块，用于根据最终得到的所述科技文档的数据分析查询属性在历年的发展趋势。

本发明的有益效果：可以通过成熟的爬虫方案获取两种科技文档，并且对文档进行元数据识别和存储，方便后续的属性查询和趋势分析；利用numpy语法，自定义规则构建高速过滤矩阵，并加入动态规划思想，构建算法框架实现高速高效的科技文档搜索和分类；另外可让用户有更多的交互感，自由度，用户可以按照自己的需求进行属性设定，设计多种趋势分析参数，并根据用户的自定义，给出更多样化的分析结果；同时提出一个多单元、多模块的系统，能够完整的实现领域趋势分析功能，并且结果展示效果丰富，结果完整。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明中领域趋势分析方法的整体流程示意图；

图2为本发明中领域趋势分析方法的步骤S10的具体流程图；

图3为本发明中领域趋势分析方法的步骤S20的具体流程图；

图4为本发明中领域趋势分析方法的步骤S30的具体流程图；

图5为本发明中领域趋势分析方法的步骤S40的具体流程图；

图6为本发明中步骤S10科技文档中论文文档详细流程图；

图7为本发明中步骤S20前端页面筛选规则自定义界面布局图；

图8为本发明中步骤S30后端处理详细流程图；

图9为本发明中步骤S40查询属性页面趋势展示结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1和图2所示，本发明为基于科技文档的领域趋势分析方法，包括：

步骤S10，收集论文和专利数据后进行整理，形成科技文档后储存；

步骤S20，自定义查询属性值生成科技文档筛选规则；

步骤S30，将筛选规则划分为三种类别并按照顺序对所述科技文档进行操作；

步骤S40，根据最终得到的所述科技文档的数据分析查询属性在历年的发展趋势。

所述进行整理的方法包括：

步骤S101，查询本地是否存在科技文档；若是，进入步骤S103，否则进入步骤S102；

步骤S102，爬取所述论文和专利数据；

步骤S103，对所述论文和专利数据进行元数据划分；

步骤S104，以文档为单位进行元数据储存至数据库。

在本发明的数据库构建中，主要通过爬虫和处理本地亦有文档获取科技文档，本文的科技文档的包括论文信息和国内外专利数据。论文数据除了论文本身，还包括代码地址。

以论文数据为例，参看图6所示，论文数据是利用爬虫的方案从相关论文网站进行爬取。具体就是通过构造期刊和会议的dblpapi链接访问dblp网站获取该期刊和会议下论文的标题，作者等信息，利用这些信息在相关论文网站进行搜索下载论文pdf，并且将pdf中的文本进行文本提取，获得文本数据。

对所有的科技文档数据(论文和专利数据)进行元数据划分。将上述论文文本数据中每篇论文的作者，代码，摘要，数据集，评价指标等进行识别并抽取，并单独存档。专利文档也需要将每篇专利的摘要，声明，背景，发明人信息等数据识别出来。如果原文本是英文，则还需要将上述元数据进行翻译同样进行保存，最终将所有数据存储于mongodb。。

作为本发明进一步的方案：如图3所示，所述步骤S20包括：

步骤S201，确定查询属性；

步骤S202，构建筛选规则；

步骤S203，提交最终的查询请求。

通过上述技术方案，用户可以通过在前端网页页面展示的文本框“Mongo数据过滤语句”，根据自己的需求输入标准的mongodb查询语句进行查询。也可以在另一个文本框“手动查询组”，参看图6所示，按照我们预定义好的查询语句格式，例如中括号，小括号等输入查询条件。也可以在前端展示的组查询区域，根据我们预定好的查询属性，自定义输入或者下拉表格选择每个属性的值。三种方式可以只使用一种，也可以组合使用。

如图7所示，以论文为例，在完成文本筛选规则输入之后，用户点击前端网页的提交查询语句按钮之后，等待后端系统对前端系统传输的筛选规则进行数据处理，最终会在前端页面展示结果，结果是以文本和表格的形式进行展示。

作为本发明进一步的方案：如图4所示，所述步骤S30包括：

步骤S301，将筛选规则分为统计规则、过滤规则和排序规则；

步骤S302，根据所述统计规则查询数据库；

步骤S303，根据所述过滤规则精选查询后结果；

步骤S303，根据所述排序规则处理过滤后结果。

通过上述技术方案，参看图8所示，根据前端网页传输的筛选规则，首先获取统计规则。这里统计规则主要包括统计年份，统计的对象是论文数据还是专利数据，查询对象(以论文为例，查询对象有：词组/作者/任务/数据集等等)等大粒度筛选规则。

根据前端网页传输的筛选规则，其次获取过滤规则。这里过滤规则中过滤对象是我们后端系统定义的，需要用户在前端网页手动输入或者选择每种属性的值，如果用户没有选择后端系统就使用默认的值。这些属性包括每个批次、(批次：需要对结果按照条件进行分组展示，每组就是一个批次)论文或者专利的数量、每两个连续批次的标准差、每两个连续批次的变异系数等等我们自定义的属性。

根据前端网页传输的筛选规则，最后获取排序规则。这里排序规则也是我们后端系统自定义的属性，用户通过前端网页给每种属性选择或者自定义值，如果用户没有选择则使用系统默认值。具体属性和过滤规则中属性相同，用户只需要选择按照那一种属性或者哪几种属性进行排序。

通过上述的三种规则，使用numpy矩阵自定义构建高速过滤器，能够快速的从数据库中取出符合规则的数据。同时还入动态规划算法，增强数据库数据检索效率。动态规划和矩阵加速算法描述如下：

n个关键词出现科技文本的数量等于n-1个关键词出现科技文本的数量加上单个关键词出现的数量，就是说当1个关键词出现科技文本的数量计算完成后，2个关键词出现科技文本的数量可以用1个关键词出现科技文本数量来求和，等2个关键词出现论文的数量计算完成后3个关键词出现科技文本的数量可以用2个关键词出现科技文本的数量加上1个关键词出现的科技文本数量，以此类推，当算完n-1个关键词出现科技文本的数量之后，n个关键词出现科技文本的数量就很好算了。矩阵过滤是把最大值和最小值的限制变成两个矩阵，然后关键词出现科技文本的数量也是一个矩阵，这三个矩阵之间进行计算可以并行增加计算速度，不需要用循环判断了。

从数据库中取出符合条件的科技文档，并且按照连续两年的变化趋势(包括标准差，变异系数等)进行趋势展示。

作为本发明进一步的方案：如图5所示，所述步骤S40包括：

步骤S401，页面展示属性趋势结果；

步骤S402，点击单个属性结果展示科技文档统计结果；

步骤S403，点击单个所述科技文档展示所述科技文档字段信息；

步骤S404，点击单个所述科技文档字段信息展示所述科技文档详细信息。

通过上述技术方案，参看图9所示，前端数据展示主要是表格形式的输出，首先是分批次结果展示。以词组查询论文历年趋势为例(下述步骤均是此例)：将用户需要查询词组进行排列组合；假设有n个词组，则最终分为n个批次；第i个批次展示的是i个词组共同出现的论文历年的趋势。表格的表头由我们自定义(即步骤3中的过滤，排序规则中的属性)。

对于步骤4.1中每个批次的每条结果中的超链接，用户均可进行点击，点击之后页面将跳转。新页面展示拥有该词组组合的所有论文信息，也是由表格形式组成，表格的表头由步骤1中获取的论文元数组组成。

对于步骤4.3中符合某个词组组合条件的所有论文信息表格中每条论文信息中的超链接，用户均可进行点击，点击之后页面将跳转。新页面将展示该论文更具体信息，页面由表格加文字的形式进行展示。

一种基于科技文档的领域趋势分析系统，包括：

收集整理模块，用于收集论文和专利数据后进行整理，形成科技文档后储存；

规则设定模块，用于自定义查询属性值生成科技文档筛选规则；

筛选执行模块，用于将筛选规则划分为三种类别并按照顺序对所述科技文档进行操作；

趋势查询显示模块，用于根据最终得到的所述科技文档的数据分析查询属性在历年的发展趋势。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于科技政策文本的主题发现与趋势分析方法 [P] . 中国专利： CN108009225A . 2018-05-08
2. 一种面向科技学术会议的领域趋势预测方法、装置及存储介质 [P] . 中国专利： CN114742328A . 2022-07-12
3. The system and method based on computer for the development of monolingual documents systems based computer to translate text input in language source for a foreign language and to desInvolvement of documents mono and multilingual translation method based on the computer to translate the text in the language source for a language estrageira method based on computer for developmentThe documents mono and multilingual translation and domain model tripartite [P] . BR9307175A . 1999-03-30

机译：用于开发单语文档的基于计算机的系统和方法基于计算机的系统，用于翻译外语源中的文本输入，并且基于计算机的单，多语翻译方法涉及用于翻译语言源中的文本的计算机。一种基于计算机的语言开发方法用于文档开发单，多语言翻译和领域模型三方
4. ELECTRONIC TERMINAL APPARATUS WHICH ENABLE INSERTION OF TREND LINE FOR CHART EXISTING IN ELECTRONIC DOCUMENT BASED ON REGRESSION ANALYSIS AND OPERATING METHOD THEREOF [P] . 韩国专利： KR20210098681A . 2021-08-11

机译：基于回归分析及其操作方法，能够在电子文档中插入趋势线的电子终端设备
5. Trend Monitoring and Diagnostic Analysis Method for a Vacuum Pump and a Trend Monitoring and Diagnostic Analysis Method for Vacuum Pump and a Trend Monitoring and Diagnostic Analysis System Therefor and Computer-Readable Storage Media Including a Computer Program Which Performs the Method [P] . 美国专利： US2008010030A1 . 2008-01-10

机译：真空泵的趋势监视和诊断分析方法，真空泵的趋势监视和诊断分析方法及其趋势监视和诊断分析系统以及包括执行该方法的计算机程序的计算机可读存储介质