首页> 中国专利> 一种针对教育部的分类系统和分类方法

一种针对教育部的分类系统和分类方法

摘要

一种针对教育部的分类系统和分类方法,包括:步骤1:标注数据集的建立;步骤2:标注数据集的转码;步骤3:建立某一学科的训练集和测试集;步骤4:基于卷积神经网络的模型搭建;步骤5:模型训练;步骤6:学科分类。有效解决了现有技术中市面上没有准确率偏高的以教育部学科为基准的学科分类体系、传统分类办法分类准确度低、分类难度大、传统文章分类不涉及教育部学科的缺陷。

著录项

  • 公开/公告号CN113837240A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 南京昆虫软件有限公司;

    申请/专利号CN202111030674.2

  • 发明设计人 张静鹏;

    申请日2021-09-03

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06Q50/20(20120101);

  • 代理机构32296 南京睿之博知识产权代理有限公司;

  • 代理人刘菊兰

  • 地址 210000 江苏省南京市雨花台区软件大道170-1号天溯科技园2栋1605室

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明实施例涉及分类技术领域,也属于学者分类和学科分类领域,具体涉及一种针对教育部的分类系统和分类方法,尤其涉及一种基于卷积神经网络和教育部学科的期刊分类系统和分类方法。

背景技术

就目前而言,各家厂商在学科分类方面做出了很多研究,但仅仅是根据传统的词频分析与关键词聚类来对期刊的学科进行判别,并且目前市面上没有准确率偏高的以教育部学科为基准的学科分类体系。

问题1:传统分类办法分类准确度低,分类难度大。

传统的分类办法大多采用词频关联,即文章中某一个关键词出现的频率高,这篇文章就会和这个关键词所关联的学科挂钩。随着时代的发展,文章内容的丰富,这种分类办法已经无法适应潮流。例如,分类方法会把手术刀和医学挂钩,但如果一篇文章讲述的是手术刀的制造工艺,显然该文章与医学并无太大关联。其次,要收集医学相关的所有关键词,工作难度过大,导致需要花费大量的人力物力去维护这一体系。

问题2:传统文章分类不涉及教育部学科。

论文相关网站对于文章的分类没有统一的标准,基本是各自为战,目前在国内没有一家数据商在教育部学科分类体系这一块展开研究。。

发明内容

为解决上述问题,本发明实施例提供了一种针对教育部的分类系统和分类方法,有效避免了现有技术中市面上没有准确率偏高的以教育部学科为基准的学科分类体系、传统分类办法分类准确度低、分类难度大、传统文章分类不涉及教育部学科的缺陷。

为了克服现有技术中的不足,本发明实施例给予了一种针对教育部的分类系统和分类方法的解决方案,具体如下:

一种针对教育部的分类系统的分类方法,包括:

步骤1:标注数据集的建立;

所述标注数据集的建立的方法,包括:根据学位论文与中国国家图书馆分类号的对应关系以及中国国家图书馆分类号和教育部学科的对应关系建立标注数据集。

步骤2:标注数据集的转码;

所述标注数据集的转码的方法,包括:根据获取的所有文章,获取其出现的所有单词,制作得到长度为601408的英文字典;根据英文字典将所有文章转换为1*200的矩阵。

步骤3:建立某一学科的训练集和测试集;

所述建立某一学科的训练集和测试集的方法,包括:将所有该学科的文章标记为正面结果,并抽取80%作为正面结果训练集,剩余20%作为正面结果测试集;将所有不是该学科的文章标记为负面结果,并抽取80%作为负面结果训练集,剩余20%作为负面结果测试集;

在训练过程中每次分别从正面结果训练集和负面结果训练集各抽取64条用作模型的训练,每次分别从正面结果测试集和负面结果测试集各抽取64条用作模型的测试。

步骤4:基于卷积神经网络的模型搭建;

步骤5:模型训练;

所述模型训练的方法,包括:共计训练13个门类模型,110个教育部学科模型,各模型的评价指标都在90%以上。

步骤6:学科分类;

所述学科分类的方法,包括:如果一篇文章想要分入某个教育部一级学科,首先要满足该学科所在的门类模型,再满足该教育部一级学科模型;

如果一份期刊想要分入某个教育部一级学科,要满足至少60%的文章在该教育部一级学科下。

一种针对教育部的分类系统,包括:

建立模块,用于标注数据集的建立;

转码模块,用于标注数据集的转码;

训练模块,用于建立某一学科的训练集和测试集;

搭建模块,用于基于卷积神经网络的模型搭建;

模型模块,用于模型训练;

分类模块,用于学科分类。

所述建立模块还用于根据学位论文与中国国家图书馆分类号的对应关系以及中国国家图书馆分类号和教育部学科的对应关系建立标注数据集。

所述转码模块还用于根据获取的所有文章,获取其出现的所有单词,制作得到长度为601408的英文字典;根据英文字典将所有文章转换为1*200的矩阵。

所述训练模块还用于将所有该学科的文章标记为正面结果,并抽取80%作为正面结果训练集,剩余20%作为正面结果测试集;将所有不是该学科的文章标记为负面结果,并抽取80%作为负面结果训练集,剩余20%作为负面结果测试集;

在训练过程中每次分别从正面结果训练集和负面结果训练集各抽取64条用作模型的训练,每次分别从正面结果测试集和负面结果测试集各抽取64条用作模型的测试。

所述分类模块还用于如果一篇文章想要分入某个教育部一级学科,首先要满足该学科所在的门类模型,再满足该教育部一级学科模型;

如果一份期刊想要分入某个教育部一级学科,要满足至少60%的文章在该教育部一级学科下。

本发明实施例的有益效果为:

本发明的方法实现了准确率高的以教育部学科为基准的学科分类体系,分类很容易,并能涉及教育部学科。有效解决了现有技术中市面上没有准确率偏高的以教育部学科为基准的学科分类体系、传统分类办法分类准确度低、分类难度大、传统文章分类不涉及教育部学科的缺陷。

附图说明

图1为本发明的针对教育部的分类系统的分类方法的整体流程图。

具体实施方式

下面将结合附图和实施例对本发明实施例做进一步地说明。

如图1所示,针对教育部的分类系统的分类方法,包括如下步骤:

步骤1:标注数据集的建立;

所述标注数据集的建立的方法,包括:根据学位论文与中国国家图书馆分类号的对应关系以及中国国家图书馆分类号和教育部学科的对应关系(13个教育部学科门类、110个教育部一级学科)建立标注数据集。在这一步最终呈现的结果上,获得了较为准确的学科标注数据集,13个学科门类各10万篇文章(可重复),110个学科各2万篇文章(可重复)。

例如:一级学科:马克思主义哲学对应的中国国家图书馆分类号为:A1,A,A8,A84,B0;门类:哲学对应的中国国家图书馆分类号为: B01,B02,B03,B08,B0。

优点:在这一步中,用机器标注的方法取代了以往人工标注的方法,大大减少了人力物力的投入;这两个对应关系得来的文章准确度较高。

步骤2:标注数据集的转码;

所述标注数据集的转码的方法,包括:根据获取的所有文章,获取其出现的所有单词,制作得到长度为601408的英文字典;根据英文字典将所有文章转换为1*200的矩阵。

例如如下所示的英文字典:

dict

minimizingweighted

municipai

as200mw

recovery51

about9years

andmangiferin

hypsochromically

pp2c21

wakening

couldlower

educationenvironment

enogenousely

betterfamily

incomplementary

acmotor

lc50were1

saionji

controllled

progresson

enhancedgreatly

ionx

bacillary

refracive

in1890

crystalsbased

energyand

forguangzhou

libertins

所述标注数据集的转码的方法的部分实现代码如下所示:

例如:Purpose-Wiki forms a new model of virtual collaboration. Theoriginal wild is designed to hide content authorship information.Such designmay hinder users from being aware of task conflict,resulting in low-efficientconflict management and decreased group performance.This study aims atincreasing users'awareness of task conflict to facilitate wiki-basedcollaboration.Design/methodology/approach-A visual feedback dialog box isdesigned to increase users'awareness of task conflict.A survey-basedcomparative study is conducted by using original wild and modified wiki(thenew design).A total of 301participants are invited.Structural equation model(SEM)is used to analyze survey data.Findings-Most users are willing to solveconflict issues,and the dialog box can increase users'awareness of taskconflict.Conflict awareness can promote user's participation,gain betterconflict resolution and improve group performance.The dialog box can enhancethe influence of conflict awareness on user participation and conflictresolution,but reduce the influence of conflict awareness on groupperformance.Research limitations/implications-Only undergraduate students areinvited,some typical variables are not included.The design needsimprovement.Originality/value-A new wiki tool is designed.The influence ofconflict awareness is explored while previous studies largely ignore thisvariable.

转换后编码为

[1129794 1238442 1142221 138159 1381583 571579 1335737 617718 1326063618069 286557 1315384 776902 1259783 90889 1165424 512814 839423 5476531391312 237506 963132 546716 1067425 113548 354942 132381 1335737 900013214897 1143905 964454 1315933 624879 214897 1136531 1314985 51201 445480304242 1312112 1216493 1058571 1167438 1049619 1067425 383474 1335737 900013214897 90889 790745 1238442 1356034 1326063 237506 306144 279336 138159428031 299002 814090 484760 776902 1259783 90889 811154 1067425 3834741335737 900013 214897 138159 1054269 1356034 1239053 1216493 776902 1113755654817 912278 286557 1315384 1314985 796005 1238442 618069 1381583 237506138159 89707 1335737 682687 218181 878963 1330000 622842 153527 571579 906748776902 700796 90889 412721 1054269 1129940 1237833 852873 1067425 878963586549 90889 646562 214897 1352935 1314985 618069 814090 484760 183524 8111541067425 383474 1335737 900013 214897 214897 383474 183524 394974 181300951935 493621 1233765 1152098 214897 1010930 1314985 714988 445480 304242618069 814090 484760 183524 571769 618069 376024 1335737 214897 383474 98387181300 493621 1314985 214897 1010930 831280 260478 618069 376024 1335737214897 383474 98387 445480 304242 489797 1138128 729142 877022 275706 1211368878963 1330000 1260399 1166217 1174398 878963 385770 4958 618069 237506236913 637641 215509 1134332 138159 1381583 1238442 380444 776902 1259783618069 376024 1335737 214897 383474 776902 868183]

步骤3:建立某一学科的训练集和测试集;

所述建立某一学科的训练集和测试集的方法,包括:将所有该学科的文章标记为正面结果,并抽取80%作为正面结果训练集,剩余20%作为正面结果测试集;将所有不是该学科的文章标记为负面结果,并抽取80%作为负面结果训练集,剩余20%作为负面结果测试集;

在训练过程中每次分别从正面结果训练集和负面结果训练集各抽取64条用作模型的训练,每次分别从正面结果测试集和负面结果测试集各抽取64条用作模型的测试。

例如:

马克思主义有三篇摘要A、B、C。

哲学有三篇摘要D、E、F。

法学有三篇摘要H、I、J。

对于马克思主义而言,它的正面结果有A、B、C,负面结果有D、E、 F、H、I、J。

实现所述建立某一学科的训练集和测试集的部分代码如下:

selected_index=

random.sample(list(range(len(train_Y_true))),k=64)

batch_X_1=train_X_true[selected_index]

batch_Y_1=train_Y_true[selected_index]

selected_index=

random.sample(list(range(len(train_Y_false))),k=64)

batch_X_2=train_X_false[selected_index]

batch_Y_2=train_Y_false[selected_index]

batch_X=np.vstack((batch_X_2,batch_X_1))

batch_Y=np.vstack((batch_Y_2,batch_Y_1))

#从正面结果训练集和负面结果训练集各抽取64条

selected_index=

random.sample(list(range(len(test_Y_true))),k=64)

batch_X_1=test_X_true[selected_index]

batch_Y_1=test_Y_true[selected_index]

selected_index=

random.sample(list(range(len(test_Y_false))),k=64)

batch_X_2=test_X_false[selected_index]

batch_Y_2=test_Y_false[selected_index]

test_X=np.vstack((batch_X_2,batch_X_1))

test_Y=np.vstack((batch_Y_2,batch_Y_1))

#从正面结果测试集和负面结果测试集各抽取64条

优点:采用一学科对应一模型而不是多学科对应一模型的搭建方法,便于优化某一学科的分类准确率;正面结果和负面结果的比重相当,防止出现负面结果占比过少的情况下,准确率不切实际的问题。

步骤4:基于卷积神经网络的模型搭建;

实现所述基于卷积神经网络的模型搭建的部分代码如下:

#导入相关的库

import tensorflow as tf

import tensorflow.compat.v1 as tf

tf.reset_default_graph()

tf.disable_v2_behavior()

from tensorflow import keras as kr

from sklearn import metrics

#新建变量x和y

X_holder=tf.placeholder(tf.int32,[None,seq_length])

Y_holder=tf.placeholder(tf.float32,[None, num_classes])

#根据对应的词向量转化为句向量

embedding=tf.get_variable('embedding',[601408, embedding_dim])

embedding_inputs=tf.nn.embedding_lookup(embedding, X_holder)

#tf.layers.conv1d一维卷积

conv=tf.layers.conv1d(embedding_inputs,num_filters, kernel_size)

#池化

max_pooling=tf.reduce_max(conv, reduction_indices=[1])

#全连接

full_connect=tf.layers.dense(max_pooling,hidden_dim)

#dropout,随机剔除部分数据

full_connect_dropout=tf.nn.dropout(full_connect,

keep_prob=dropout_keep_prob)

#函数激活

full_connect_activate=tf.nn.relu(full_connect_dropout)

#全连接

softmax_before=tf.layers.dense(full_connect_activate, num_classes)

predict_Y=tf.nn.softmax(softmax_before)

#优化器

cross_entropy= tf.nn.softmax_cross_entropy_with_logits_v2(labels=Y_h older,logits=softmax_before)

loss=tf.reduce_mean(cross_entropy)

optimizer=tf.train.AdamOptimizer(learning_rate)

#训练

train=optimizer.minimize(loss)

#输出结果

true_result=tf.argmax(Y_holder,1)

predict_result=tf.argmax(predict_Y,1)

步骤5:模型训练;

所述模型训练的方法,包括:共计训练13个门类模型,110个教育部学科模型,各模型的评价指标都在90%以上。

步骤6:学科分类;

所述学科分类的方法,包括:如果一篇文章想要分入某个教育部一级学科,首先要满足该学科所在的门类模型,再满足该教育部一级学科模型;

如果一份期刊想要分入某个教育部一级学科,要满足至少60%的文章在该教育部一级学科下。

例如:法学门类下有一级学科法学和公安学等,一篇文章如果同时分类到门类法学和一级学科公安学,则该文章可被认为属于一级学科法学。

一种针对教育部的分类系统,包括:

建立模块,用于标注数据集的建立;

转码模块,用于标注数据集的转码;

训练模块,用于建立某一学科的训练集和测试集;

搭建模块,用于基于卷积神经网络的模型搭建;

模型模块,用于模型训练;

分类模块,用于学科分类。

所述建立模块还用于根据学位论文与中国国家图书馆分类号的对应关系以及中国国家图书馆分类号和教育部学科的对应关系(13 个教育部学科门类、110个教育部一级学科)建立标注数据集。在这一步最终呈现的结果上,获得了较为准确的学科标注数据集,13个学科门类各10万篇文章(可重复),110个学科各2万篇文章(可重复)。

所述转码模块还用于根据获取的所有文章,获取其出现的所有单词,制作得到长度为601408的英文字典;根据英文字典将所有文章转换为1*200的矩阵。

所述训练模块还用于将所有该学科的文章标记为正面结果,并抽取80%作为正面结果训练集,剩余20%作为正面结果测试集;将所有不是该学科的文章标记为负面结果,并抽取80%作为负面结果训练集,剩余20%作为负面结果测试集;

在训练过程中每次分别从正面结果训练集和负面结果训练集各抽取64条用作模型的训练,每次分别从正面结果测试集和负面结果测试集各抽取64条用作模型的测试。

所述分类模块还用于如果一篇文章想要分入某个教育部一级学科,首先要满足该学科所在的门类模型,再满足该教育部一级学科模型;

如果一份期刊想要分入某个教育部一级学科,要满足至少60%的文章在该教育部一级学科下。

Scival收录的期刊范围远少于昆虫收录的期刊范围,在教育部学科方面,Scival仅区分了97个一级学科,而本发明区分了所有一级学科,总计110个。

以外国语言文学为例,Scival总计收录151份期刊,这显然远低于真实的期刊数量。本发明实施例总计收录2651份期刊,可以说覆盖了绝大多数的外国语言文学期刊。与Sciva覆盖的范围相比,其收录的151份期刊中仅有2份刊不被本发明实施例认可为外国语言文学。经相关确认,这2份刊确实不应被分入外国语言文学。从本发明实施例收录但Scival未收录的2502份期刊中随机抽取100份期刊进行人工判断,经相关确认,这100份刊确实应被分入外国语言文学,Scival 未能做到这一点。

以上以用实施例说明的过程对本发明实施例作了描述,本领域的技术人员应当理解,本公开不限于以上描述的实施例,在不偏离本发明实施例的范围的状况下,能够做出每种变动、改变和替换。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号