首页> 中国专利> 一种基于大数据的文献分析方法及管理系统

一种基于大数据的文献分析方法及管理系统

摘要

本发明公开了一种基于大数据的文献分析方法及管理系统,包括获取待测文献的文本数据,对所述文本数据进行预处理,获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,所述文本关系表征所述文本数据的主题的关系信息,根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。该方法不仅可以提高文献分析的精度,同时具有较好的可解释性,可以直接应用于文献管理系统中。

著录项

  • 公开/公告号CN116821349A

    专利类型发明专利

  • 公开/公告日2023-09-29

    原文格式PDF

  • 申请/专利权人 中国标准化研究院;

    申请/专利号CN202311091618.9

  • 发明设计人 孙宇宁;王静雅;于钢;卢丽丽;

    申请日2023-08-29

  • 分类号G06F16/35(2019.01);G06F40/30(2020.01);G06F18/243(2023.01);G06F18/25(2023.01);G06N3/045(2023.01);G06N3/08(2023.01);

  • 代理机构成都创典汇智知识产权代理事务所(普通合伙) 51383;

  • 代理人汪丽

  • 地址 100191 北京市海淀区知春路4号

  • 入库时间 2024-01-17 01:30:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-10-31

    授权

    发明专利权授予

  • 2023-09-29

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及文献领域,尤其涉及一种基于大数据的文献分析方法及管理系统。

背景技术

大数据和技术在文献领域的应用越来越广泛,可以帮助文献系统的管理者及时、高效地分析文献,实现文献的分析和管理。目前,文献信息量庞大、种类多样、信息密度大等特点,文献分析方法存在较多的不确定因素,导致文献分析方法存在较大的不确定性。虽然已经发明了一些文献分析方法与系统,但是仍不能有效解决文献分析和管理方法的不确定问题。

发明内容

本发明的目的是要提供一种基于大数据的文献分析方法。

为达到上述目的,本发明是按照以下技术方案实施的:

本发明包括以下步骤:

A获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;

B基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中所述文本关系:

将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;

将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:

其中主题j为

C根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。

进一步的,步骤A中所述预处理包括分词、去停用词、词性标注、去重、去标点符号和向量化。

进一步的,提取所述文本数据的文本主题的方法,包括:

将预处理后的所述文本数据按照5:3随机生成训练集和测试集,根据主题生成词的权重构建主题模型,将训练集输入主题模型,初始化主题的数量和主题在主题模型中的分布,根据当前参数估计主题在文献中的概率分布:

其中主题z生成词e的概率为

进一步的,所述第二数据表征引用次数和被引用频次的方法,包括:

抽取引用文献,识别文本中的标题和作者,解析格式文献,抽取标题、领域、关键词、引用位置、引用次数和被引用频次,计算文献的重要程度:

其中文献

进一步的,根据所述第一数据和所述第二数据计算综合评分的方法,包括:

对所述第一数据和所述第二数据进行无量纲处理,计算所述无量纲处理后的所述第一数据和所述第二数据的相关系数;

其中第k个文献的数据i的相关系数为

其中数据i的权重为

其中综合评分为D,第一数据为A,第二数据为B,第一数据的权重为

进一步的,根据综合评分构建所述分类模型的方法,包括分类模型基于深度神经网络,将预处理后的文本数据随机分成训练集和测试集,将综合评分作为分类模型的目标,将训练集输入训练分类模型,将测试集输入训练后的分类模型,对测试集的文本数据进行分类预测,将预测的分类和图书馆文献分类作比较获取预测的准确率,将准确率0.95作为优化目标,优化分类模型,完成构建。

进一步的,所述优化分类模型的方法,包括:

随机初始化深度神经网络的参数,获取参数的梯度,在不同的时段设置学习率:

其中迭代次数为t,

其中稳定常数为

第二方面,一种基于大数据的文献分析管理系统,包括:

获取模块:用于获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;

处理模块:用于基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中所述文本关系:

将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;

将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:

其中主题j为

管理模块:用于根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。

本发明的有益效果是:

本发明是一种基于大数据的文献分析方法,与现有技术相比,本发明具有以下技术效果:

本发明通过预处理、获取第一数据第二数据和文献分类步骤,可以提高文献分析和管理的准确性,从而提高文献分析和管理的精度,将文献分析和管理智能化,可以大大节省资源和人力成本,提高工作效率,可以实现对文献的自动分析和管理,实时对待处理文本进行主题提取和重要程度分析,对文献分析和管理具有重要意义,可以适应不同标准的文献分析和管理、不同系统的信息文献分析和管理,具有一定的普适性。

附图说明

图1为本发明一种基于大数据的文献分析方法的步骤流程图。

具体实施方式

下面通过具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。

本发明基于大数据的文献分析方法包括以下步骤:

如图1所示,在本实施例中,包括以下步骤:

A获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;

在实际评估中,将文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》,分类海洋生境、无人驾驶、地震预测、中国气候变化,作为研究对象,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的引用次数和被引用频次分别为2和242、1和3985、0和54、643和4755;

B基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中所述文本关系:

将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;

将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:

其中主题j为

在实际评估中,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.97、0.061、0.074、0.53,《无人驾驶汽车的发展现状和相关建议》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.031、0.95、0.012、0.024,《基于高阶磁异常导数与高阶统计量的地震短期预测方法》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.201、0.137、0.961、0.107,《中国近80年来气候变化特征及其形成机制》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.317、0.0175、0.0213、0.937,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的第二数据分别为0.39、0.57、0.12、0.84;

C根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理;

在实际评估中,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的分类分别是海洋生境、无人驾驶、地震、气候。

在本实施例中,步骤A中所述预处理包括分词、去停用词、词性标注、去重、去标点符号和向量化。

在本实施例中,提取所述文本数据的文本主题的方法,包括:

将预处理后的所述文本数据按照5:3随机生成训练集和测试集,根据主题生成词的权重构建主题模型,将训练集输入主题模型,初始化主题的数量和主题在主题模型中的分布,根据当前参数估计主题在文献中的概率分布:

其中主题z生成词e的概率为

在实际评估中,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的主题分别是海洋生境/甲烷/氧化作用/响应特征、无人驾驶汽车/发展现状/相关建议、高阶磁异常导数/高阶统计量/地震/短期预测、中国/气候特征/形成机制。

在本实施例中,所述第二数据表征引用次数和被引用频次的方法,包括:

抽取引用文献,识别文本中的标题和作者,解析格式文献,抽取标题、领域、关键词、引用位置、引用次数和被引用频次,计算文献的重要程度:

其中文献

在本实施例中,根据所述第一数据和所述第二数据计算综合评分的方法,包括:

对所述第一数据和所述第二数据进行无量纲处理,计算所述无量纲处理后的所述第一数据和所述第二数据的相关系数;

其中第k个文献的数据i的相关系数为

其中数据i的权重为

其中综合评分为D,第一数据为A,第二数据为B,第一数据的权重为

在实际评估中,第一数据的权重为0.69,第二数据的权重为0.31,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.7902、0.21879、0.08826、0.6261,《无人驾驶汽车的发展现状和相关建议》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.19809、0.8322、0.04548、0.27696,《基于高阶磁异常导数与高阶统计量的地震短期预测方法》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.25959、0.27123、0.70029、0.33423,《中国近80年来气候变化特征及其形成机制》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.33963、0.29745、0.051897、0.90693。

在本实施例中,根据综合评分构建所述分类模型的方法,包括分类模型基于深度神经网络,将预处理后的文本数据随机分成训练集和测试集,将综合评分作为分类模型的目标,将训练集输入训练分类模型,将测试集输入训练后的分类模型,对测试集的文本数据进行分类预测,将预测的分类和图书馆文献分类作比较获取预测的准确率,将准确率0.95作为优化目标,优化分类模型,完成构建。

在本实施例中,所述优化分类模型的方法,包括:

随机初始化深度神经网络的参数,获取参数的梯度,在不同的时段设置学习率:

其中迭代次数为t,

其中稳定常数为

第二方面,一种基于大数据的文献分析管理系统,包括:

获取模块:获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;

处理模块:用于基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中所述文本关系:

将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;

将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:

其中主题j为

管理模块:用于根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号