首页> 中国专利> 基于文本语义特征分析的学生思想报告分析系统与方法

基于文本语义特征分析的学生思想报告分析系统与方法

摘要

本发明提出基于文本语义特征分析的学生思想报告提炼、分析系统与方法。系统包括报告输入子系统、报告分离子系统、报告存储子系统以及报告评估子系统,方法包括基于所述系统实现的电子学生思想报告提炼方法、纸质学生思想报告提炼方法以及学生思想报告分析方法。光学扫描识别模块对提交的纸质学生思想报告进行光学扫描识别生成纸质学生思想报告扫描识别版本;报告分离子系统用于所述电子学生思想报告进行报告内容分离处理;报告存储子系统用于存储分离处理后的分离内容以及所述纸质学生思想报告扫描识别版本;报告评估子系统用于对所有所述学生思想报告进行评估。本发明的技术方案能够自动化的快速实现学生思想报告的分析和评估。

著录项

  • 公开/公告号CN112163579A

    专利类型发明专利

  • 公开/公告日2021-01-01

    原文格式PDF

  • 申请/专利权人 江苏安全技术职业学院;

    申请/专利号CN202011056279.7

  • 发明设计人 张敏敏;

    申请日2020-09-30

  • 分类号G06K9/32(20060101);G06F40/30(20200101);

  • 代理机构44681 广东有知猫知识产权代理有限公司;

  • 代理人冯姣

  • 地址 221011 江苏省徐州市贾汪区育才路1号

  • 入库时间 2023-06-19 09:24:30

说明书

技术领域

本发明属于文本数据处理技术领域,尤其涉及一种基于文本语义特征分析 的学生思想报告提炼、分析系统与方法。

背景技术

在社会经济过程中社会不良风气也在不断的滋长,青少年在成长 过程中会受到各种因素的影响,加强对青少年思想政治工作的管理, 构建良好的社会环境与风气,可以为青少年的健康成长奠定基础。

目前,学生的思想政治工作主要是通过学习来进行,并通过学生提交的思 想报告来关注其学习成果。然而,由于思想政治教育本身不同于其他科目教育, 思想政治课程本身具有自身的严肃性,因此,学生的学习欲望和主动参与性不 高,提交的思想报告有时候未能正确反映自身思想动态;更有甚者,会出现大 面积相互抄袭,包括随意摘抄网上搜索的内容,而不能客观的报告自身思想动 态,从而失去了本身的教育效果。对于这些情况,相关授课老师也大多心里有 数,但是由于报告的阅读和评估本身也是比较枯燥和单调的工作,授课老师也 无法一一进行并对,导致思想政治工作的教学和追踪效率降低。

随着计算机文字和文本数据处理技术的发展,自动评阅和自动文本评估提 供了可能。

例如,申请号为CN201911129815的中国发明专利申请提出一种评价数 据处理方法、装置、计算机存储介质和计算机设备;该方法包括:响应于包含 员工标识的评价数据处理指令,获取与所述员工标识对应的评价数据;确定与 所述员工标识对应的岗位类型,从预先训练好的多个情感判别模型中确定与所 述岗位类型对应的情感判别模型;使用所述确定出的情感判别模型对所述评价 数据进行处理,得到情感判别序列;获取与所述员工标识对应的绩效等级对照 表,查询所述绩效等级对照表,确定与所述情感判别序列对应的绩效等级信息。 通过该发明,能够更准确地对员工相关的绩效总结文本即评价数据进行判别, 有利于提高对员工绩效等级的评估准确性;

此外,申请号为CN201710908163的中国发明专利申请提出一种评价观 点抽取的方法及装置,包括:对待抽取文本进行切词处理,得到多个切词序列; 根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的 切词序列特征向量;将每个切词序列特征向量输入到评价观点抽取模型进行评 价观点的抽取,评价观点抽取模型是通过训练文本集对应的训练切词序列特征 向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得 到的;根据评价观点抽取模型的输出结果确定待抽取文本中的评价观点词,评 价观点词包括属性词以及评价词。

然而,对于学生思想政治报告的自动评阅和分析,现有技术并未提出有效 的技术方案。

发明内容

为解决上述技术问题,本发明提出基于文本语义特征分析的学生思想报 告提炼、分析系统与方法。所述系统包括报告输入子系统、报告分离子系 统、报告存储子系统以及报告评估子系统,所述方法包括基于所述系统实 现的电子学生思想报告提炼方法、纸质学生思想报告提炼方法以及学生思 想报告分析方法。所述光学扫描识别模块对提交的纸质学生思想报告进行 光学扫描识别生成纸质学生思想报告扫描识别版本;报告分离子系统用于 所述电子学生思想报告进行报告内容分离处理;报告存储子系统用于存储 分离处理后的分离内容以及所述纸质学生思想报告扫描识别版本;报告评 估子系统用于对所有所述学生思想报告进行评估。

本发明的技术方案充分了考虑了学生思想政治报告的文本语义和结构 特点,结合光学扫描识别技术以及内容分离技术以及映射关联存储技术, 能够自动化的快速实现学生思想报告的分析和评估。

具体来说,在本发明的第一个方面,提供一种基于文本语义特征分析的 学生思想报告提炼与分析系统,所述系统包括报告输入子系统、报告分离 子系统、报告存储子系统以及报告评估子系统;

作为一个改进,所述报告输入子系统包括光学扫描识别模块和电子文档 提交接口;

所述光学扫描识别模块,用于对提交的纸质学生思想报告进行光学扫描 识别,生成纸质学生思想报告扫描识别版本;

作为上述改进的关键技术手段,所述光学扫描识别模块,用于对提交的 纸质学生思想报告进行光学扫描识别,生成纸质学生思想报告扫描识别版 本,具体包括:

分别扫描所述纸质学生思想报告的著录项目段和正文段,得到著录 项目段图像和正文段图像;

对于著录项目段图像,采用至少一种图像加密转换算法,生成所述 著录项目段图像对应的第一加密身份识别ID;

对于正文段图像,采用至少一种光学字符识别方法获取所述正文段 图像对应的至少一个第一字符集合。

所述电子文档提交接口,用于接收学生提交的电子学生思想报告以及所 述纸质学生思想报告扫描识别版本;

作为另一个改进,所述报告分离子系统,用于对所述电子文档提交接口 接收的所述电子学生思想报告进行报告内容分离处理;

作为上述改进的关键技术手段,所述报告分离子系统,用于对所述电子 文档提交接口接收的所述电子学生思想报告进行报告内容分离处理,具体 包括:

对于所述电子学生思想报告,通过文档结构识别方法识别出所述电子学 生思想报告的著录项目段和正文段;

对于所述电子学生思想报告的著录项目段,采用至少一种摘要加密算 法,生成所述电子学生思想报告的著录项目段对应的第二加密身份识别ID;

对于所述电子学生思想报告的正文段,通过与预先配置的关注词数据进 行匹配后,生成所述电子学生思想报告的正文段对应的至少一个第二字符 集合。

所述报告存储子系统,用于存储所述报告分离子系统对所述电子文档提 交接口接收的所述电子学生思想报告进行报告内容分离处理后的分离内容 以及所述纸质学生思想报告扫描识别版本;

所述报告评估子系统,用于基于所述报告存储子系统存储的所述分离内 容,对所有所述学生思想报告进行评估。

具体而言,所述报告评估子系统计算所述第一字符集合和所述第二字符 集合的相似性评分值和差异性评分值;

基于所述相似性评分值和差异性评分值,得到所述第一字符集合和所述 第二字符集合对应的至少两份学生思想报告的评估结果。

在本发明的第二个方面,提供一种基于文本语义特征分析的电子学生思 想报告提炼方法,所述方法基于前述的一种基于文本语义特征分析的学生 思想报告提炼与分析系统实现。

具体而言,所述方法包括如下步骤:

S601:输入电子学生思想报告;

S602:识别出所述电子学生思想报告的著录项目段和正文段;

S603:采用摘要加密算法,生成所述电子学生思想报告的著录项目段 对应的第二加密身份识别ID;

S604:通过与预先配置的关注词数据进行匹配后,生成所述电子学生 思想报告的正文段对应的至少一个第二字符集合;

S605:将所述第二加密身份识别ID与所述第二字符集合建立第二映射 关系;

S606:将所述第二加密身份识别ID以及第二映射关系存储至第三著录ID数据库;

S607:将所述第二字符集合存储至第四字符集合数据库。

在本发明的第三个方面,提供一种基于文本语义特征分析的纸质学生思 想报告提炼方法,所述方法基于前述的一种基于文本语义特征分析的学生 思想报告提炼与分析系统实现。

具体来说,所述方法包括如下步骤:

S701:获取提交的纸质学生思想报告;

S702:分别扫描所述纸质学生思想报告的著录项目段和正文段,得到 著录项目段图像和正文段图像;

S703:采用图像加密转换算法,生成所述著录项目段图像对应的第一 加密身份识别ID;

S704:采用光学字符识别方法获取所述正文段图像对应的至少一个第 一字符集合;

S705:将所述第一加密身份识别ID与所述第一字符集合建立第一映射 关系;

S706:将所述第一加密身份识别ID和第一映射关系存储至第三著录ID 数据库;

S707:将所述第一字符集合存储至第四字符集合数据库。

在上述第三个方面和第二个方面的技术方案基础上,在发明的第四个方 面,提供一种基于文本语义特征分析的学生思想报告分析方法,所述方法 用于对学生提交的思想报告进行评估,所述学生提交的思想报告包括电子 学生思想报告和纸质学生思想报告。

具体而言,第四个方面的所述方法包括:

S801:采用第二个方面所述的方法对所述电子学生思想报告进行提炼;

S802:采用第三个方面所述的方法对所述纸质学生思想报告进行提炼;

S803:计算所述第一字符集合和所述第二字符集合的相似性评分值和 差异性评分值;

S804:基于所述相似性评分值和差异性评分值,得到所述第一字符集 合和所述第二字符集合对应的至少两份学生思想报告的评估结果。

本发明的上述技术方案均可以通过计算机系统,通过计算机编程的程序 指令自动化的实现。因此,在本发明的第五个方面,还提供一种计算机可 读存储介质,其上存储有计算机可执行程序指令,通过处理器和存储器执 行所述可执行程序指令,用于实现所述的方法的各个步骤。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细 体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图 仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的基于文本语义特征分析的学生思想报告提 炼与分析系统的主体架构图;

图2是图1所述系统具体数据处理的的通信连接示意图;

图3是基于图1所述系统实现的电子学生思想报告提炼方法的示意图;

图4是基于图1所述系统实现的纸质学生思想报告提炼方法的示意图;

图5是基于图1-图3所述实施例实现的基于文本语义特征分析的学生 思想报告提炼方法的流程图。

具体实施方式

下面,结合附图以及具体实施方式,对发明做出进一步的描述。

图1是本发明一个实施例的基于文本语义特征分析的学生思想报告提 炼与分析系统的主体架构图。

图1中,基于文本语义特征分析的学生思想报告提炼与分析系统包括报 告输入子系统、报告分离子系统、报告存储子系统以及报告评估子系统;

在图1基础上,参见图2。

所述报告输入子系统包括光学扫描识别模块和电子文档提交接口;

所述光学扫描识别模块,用于对提交的纸质学生思想报告进行光学扫描 识别,生成纸质学生思想报告扫描识别版本;

所述电子文档提交接口,用于接收学生提交的电子学生思想报告以及所 述纸质学生思想报告扫描识别版本;

所述报告分离子系统,用于对所述电子文档提交接口接收的所述电子学 生思想报告进行报告内容分离处理;

所述报告存储子系统,用于存储所述报告分离子系统对所述电子文档提 交接口接收的所述电子学生思想报告进行报告内容分离处理后的分离内容 以及所述纸质学生思想报告扫描识别版本;

所述报告评估子系统,用于基于所述报告存储子系统存储的所述分离内 容,对所有所述学生思想报告进行评估。

更具体的,在本实施例中,所述光学扫描识别模块,用于对提交的纸质 学生思想报告进行光学扫描识别,生成纸质学生思想报告扫描识别版本, 具体包括:

分别扫描所述纸质学生思想报告的著录项目段和正文段,得到著录 项目段图像和正文段图像;

对于著录项目段图像,采用至少一种图像加密转换算法,生成所述 著录项目段图像对应的第一加密身份识别ID;

需要注意的是,本实施例中,对于著录项目段图像,不需要进行文字文 字识别,而直接采用图像加密转换获得第一加密身份识别ID,减少了算法 复杂度,因为基于图像进行文字识别会加大算法计算量。

对于正文段图像,采用至少一种光学字符识别方法获取所述正文段图像 对应的至少一个第一字符集合。

所述报告分离子系统,用于对所述电子文档提交接口接收的所述电子学 生思想报告进行报告内容分离处理,具体包括:

对于所述电子学生思想报告,通过文档结构识别方法识别出所述电子学 生思想报告的著录项目段和正文段;

对于所述电子学生思想报告的著录项目段,采用至少一种摘要加密算 法,生成所述电子学生思想报告的著录项目段对应的第二加密身份识别ID;

对于所述电子学生思想报告的正文段,通过与预先配置的关注词数据库 进行匹配后,生成所述电子学生思想报告的正文段对应的至少一个第二字 符集合。

此处,所述预先配置的关注词数据库,是指与当前学生思想政治报告有 关的相关政治术语库。

通过与预先配置的关注词数据进行匹配后,生成所述电子学生思想报告 的正文段对应的至少一个第二字符集合,具体包括:

将所述正文段中与预先配置的关注词数据库匹配出的政治术语删除后, 将余下的不包含所述匹配的政治术语的正文段落作为所述第二字符集合。

采用上述技术手段,可以真正的客观识别出学生思想报告是否真正反映 了自身的思想政治动态,而避免了千篇一律的抄袭或者所谓借鉴。

关乎如何建立所述关注词数据库,可以通过语料库识别的方式建立,基 于文本语义进行Web分析等,本发明对此不再赘述,例如,可参见如下现 有技术文献:

陈清利.十七大报告用语研究[D].四川师范大学硕士学位论文,2 009.

董勤,等;“政治词语”的语义特色及语用功能探讨——基于《政 府工作报告》的若干词语分析;阜阳师范学院学报(社会科学版),2019 年第4期;

徐震,网络舆情内容分析中的Web文本语义特征抽取研究,《图书馆 学研究》,2016年第1期。

更具体的,在本事实例中,所述报告存储子系统,用于存储所述报告分 离子系统对所述电子文档提交接口接收的所述电子学生思想报告进行报告 内容分离处理后的分离内容以及所述纸质学生思想报告扫描识别版本,具 体包括:

所述报告存储子系统包括第三著录ID数据库和第四字符集合数据库;

将所述第一加密身份识别ID与所述第一字符集合建立第一映射关系;

将所述第二加密身份识别ID与所述第二字符集合建立第二映射关系;

将所述第一加密身份识别ID、第二加密身份识别ID、第一映射关系以 及第二映射关系存储至所述第三著录ID数据库;

将所述第一字符集合和所述第二字符集合存储至所述第四字符集合数 据库。

在上述技术手段的基础上,所述报告评估子系统,用于基于所述报告存 储子系统存储的所述分离内容,对所有所述学生思想报告进行评估,具体 包括:

计算所述第一字符集合和所述第二字符集合的相似性评分值和差异性 评分值;

基于所述相似性评分值和差异性评分值,得到所述第一字符集合和所述 第二字符集合对应的至少两份学生思想报告的评估结果。

文本的差异性评分和相似性评分,也是现有技术已有的内容。

在图1-图2基础上,参见图3。

图3是基于图1所述系统实现的电子学生思想报告提炼方法的示意图。

具体而言,所述方法包括如下步骤S601-S607:

S601:输入电子学生思想报告;

S602:识别出所述电子学生思想报告的著录项目段和正文段;

S603:采用摘要加密算法,生成所述电子学生思想报告的著录项目段 对应的第二加密身份识别ID;

S604:通过与预先配置的关注词数据进行匹配后,生成所述电子学生 思想报告的正文段对应的至少一个第二字符集合;

S605:将所述第二加密身份识别ID与所述第二字符集合建立第二映射 关系;

S606:将所述第二加密身份识别ID以及第二映射关系存储至第三著录 ID数据库;

S607:将所述第二字符集合存储至第四字符集合数据库。

需要指出的是,在上述方法中,步骤S603、S604和步骤S606、S607 是可以并行执行的,如图中虚线框所示,即步骤S603、S604可以在步骤 S602之后同时执行;步骤S606和步骤S607可以在步骤S605之后并行 执行。

同样的,在图1-图2基础上,参见图4。图4是基于图1所述系统实 现的纸质学生思想报告提炼方法的示意图。

所述方法包括如下步骤S701-S707:

S701:获取提交的纸质学生思想报告;

S702:分别扫描所述纸质学生思想报告的著录项目段和正文段,得到 著录项目段图像和正文段图像;

S703:采用图像加密转换算法,生成所述著录项目段图像对应的第一 加密身份识别ID;

S704:采用光学字符识别方法获取所述正文段图像对应的至少一个第 一字符集合;

S705:将所述第一加密身份识别ID与所述第一字符集合建立第一映射 关系;

S706:将所述第一加密身份识别ID和第一映射关系存储至第三著录ID 数据库;

S707:将所述第一字符集合存储至第四字符集合数据库。

需要指出的是,在上述方法中,步骤S703、S704和步骤S706、S707 是可以并行执行的,如图中虚线框所示,即步骤S703、S704可以在步骤 S702之后同时执行;步骤S706和步骤S707可以在步骤S705之后并行 执行。

图5是基于图1-图3所述实施例实现的基于文本语义特征分析的学生 思想报告提炼方法的流程图。

图5所述方法用于对学生提交的思想报告进行评估,所述学生提交的思 想报告包括电子学生思想报告和纸质学生思想报告。

图5所述方法包括如下步骤:

S801:采用图3所述的方法对所述电子学生思想报告进行提炼;

S802:采用图4所述的方法对所述纸质学生思想报告进行提炼;

S803:计算所述第一字符集合和所述第二字符集合的相似性评分值和 差异性评分值;

S804:基于所述相似性评分值和差异性评分值,得到所述第一字符集 合和所述第二字符集合对应的至少两份学生思想报告的评估结果。

在图5中,所述步骤S801和所述步骤802可以并行执行。

本发明的技术方案充分了考虑了学生思想政治报告的文本语义和结构 特点,结合光学扫描识别技术以及内容分离技术以及映射关联存储技术, 能够自动化的快速实现学生思想报告的分析和评估。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而 言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进 行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同 物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号