首页> 中国专利> 一种小学课外图书分级阅读评价和推荐方法及系统

一种小学课外图书分级阅读评价和推荐方法及系统

摘要

本发明公开了一种小学课外图书分级阅读评价和推荐方法及系统;其中,该方法包括以下步骤:从课外图书中选取了小学三个学段适用图书,构建小学课外阅读图书语料库;从图书多样性,图书复杂度,图书衔接性三个综合特征出发,分析、研判后得到图片、汉字、词汇、句子以及篇章五个层面多种特征作为小学课外图书分级阅读评价方法的备选特征集;运用数据分析软件筛选出最优综合特征构建小学课外图书分级阅读评价方法;将小学课外图书分级阅读评价方法预测图书的适用学段运用到协同过滤推荐算法计算用户相似度的过程中,采用皮尔逊相关系数计算方法计算用户之间的相似度,然后计算用户对未评分图书的预测分值。本发明优化了课外图书推荐系统的性能。

著录项

  • 公开/公告号CN114969564A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 中央民族大学;

    申请/专利号CN202210623160.6

  • 发明设计人 孙媛;梁家亚;

    申请日2022-06-02

  • 分类号G06F16/9536(2019.01);G06F16/958(2019.01);G06Q50/20(2012.01);

  • 代理机构北京亿腾知识产权代理事务所(普通合伙) 11309;

  • 代理人陈霁

  • 地址 100081 北京市海淀区中关村南大街27号中央民族大学理工楼516

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/9536 专利申请号:2022106231606 申请日:20220602

    实质审查的生效

说明书

技术领域

本发明属于自然语言处理技术领域,主要涉及一种小学课外图书分级阅读评价及推荐方法和一种小学课外图书分级阅读推荐系统。

背景技术

阅读能力是一项必需且重要的能力,在人的发展中处于基础和核心的地位,尤其对于小学生来说,阅读能够促进其智力、道德和审美水平的全面发展。面对错综复杂的图书海洋,如何推荐与学生所处学段阅读能力相匹配的课外图书成为摆在广大教师和家长面前的难题。分级阅读能够为破解这一难题提供思路,分级阅读的目的就是将读者所处学段的阅读能力和文本难度相适应,针对英语的分级阅读测评体系如Lexile阅读框架和A-Z分级法等经过长期的实践和发展相对较为完善成体系,普及程度也较高。国内的分级阅读研究起步较晚,且缺乏成熟的阅读体系的提出,大多数研究停留在定性推荐上,缺乏定量的研究,无法真正解决小学课外图书推荐难题。

分级阅读测评体系主要任务是预测文本的难度,从而向特定的读者推荐与其阅读能力相匹配的阅读材料,进而提升读者的阅读能力。文本可读性指文本易于阅读和理解的程度和性质,是分级阅读的重要组成部分,在应用上主要集中在母语教学领域和对外汉语教学方面,针对中小学文本可读性的研究则集中在语文教材层面,而对于中小学课外阅读文本的可读性研究则有待探索。因此,针对小学课外图书分级阅读评价及推荐进行研究,为小学生推荐文本难度与学段相适配的课外读本,培养提高其阅读能力具有重要意义。

汉语文本可读性的研究主要针对的是教学和课内的研究,用来构建的语料库规模相对有限,并且其信效度也有待验证。其次,汉语文本可读性提出的针对汉语文本难度的评价标准不一致,并且所选取的文本特征较多,形式复杂,不易于推广,实际应用性能有待验证。

在小学课外图书分级推荐场景下,传统的协同过滤推荐算法进行推荐时需要遍历所有图书的评分数据后计算用户相似度,由此计算出的数据不仅准确率不高,而且随着数据的增加将耗费大量的计算能力。此外,面对日益不断呈几何数量级增长的信息时,如何从海量信息资源中推荐并获取符合用户需求的资源成为需要重点关注的问题,尤其是在小学生课外图书推荐领域,现阶段我们不乏优秀的作品,也不乏爱好读书的读者,关键是如何将一本好书推荐给最合适学段的学生,阅读能力得到实质性的提升。

发明内容

本发明的目的在于,解决小学课外阅读图书与适用学段之间难以匹配的问题,优化课外图书推荐系统的性能。

为实现上述目的,一方面,本发明提供了一种小学课外图书分级阅读评价和推荐方法,该方法包括以下步骤:

从课外图书中选取了小学三个学段适用图书,构建小学课外阅读图书语料库;

从图书多样性,图书复杂度,图书衔接性三个综合特征出发,分析研判得到图片、汉字、词汇、句子以及篇章五个层面多种特征作为小学课外图书分级阅读评价方法的备选特征集;

运用数据分析软件筛选出最优综合特征构建小学课外图书分级阅读评价方法;

将小学课外图书分级阅读评价方法预测图书的适用学段运用到协同过滤推荐算法计算用户相似度的过程中,采用皮尔逊相关系数计算方法计算用户之间的相似度,然后计算用户对未评分图书的预测分值。

另一方面,本发明提供了一种小学课外图书分级阅读评价和推荐系统,该系统包括:用户管理、图书管理、注册登录、个人中心和图书推荐功能模块,所述图书推荐功能模块用于执行小学课外图书分级阅读评价和推荐方法。

本发明能够解决针对小学课外图书文本内容与适用学段不匹配的问题,以及能够精准的解决小学课外图书推荐与适用学段匹配度问题。

附图说明

图1为本发明实施例提供的一种小学课外图书分级阅读评价和推荐方法流程示意图;

图2为小学课外图书评价方法设计流程示意图;

图3为基于文本内容的小学课外阅读图书推荐系统结构示意图。

具体实施方式

图1为本发明实施例提供的一种小学课外图书分级阅读评价和推荐方法流程示意图。如图1所示,该方法包括步骤S101-S104:

步骤S101,从课外图书中选取了小学三个学段适用图书,构建小学课外阅读图书语料库;

具体地,本发明实施例基于教育部基础课程发展中心和关于中小学推荐书目和全国中小学图书馆推荐书目作为课外图书选取标准,从课外图书中选取了小学三个学段适用图书,构建小学课外阅读图书语料库。

已有的关于汉语的可读性公式的研究主要是从汉字层面特征、词汇层面特征和句子层面特征以及篇章层面特征四种不同层次来选取特征,没有综合考虑到各个层面的特征是否存在关联和共性,没有提出综合概括能力更强的特征来构建可读性公式。

此外在小学课外阅读图书分级评价中,图片层面的特征不容忽视,图片在小学各个学段的课外图书中均有涉及,特别是在小学低学段中,课外阅读图书中绘本类图书占据较大比例。

步骤S102,从图书多样性,图书复杂度,图书衔接性三个综合特征出发,分析研判得到图片、汉字、词汇、句子以及篇章五个层面多种特征作为小学课外图书分级阅读评价方法的备选特征集。

本发明实施例从图书多样性、图书复杂度和图书衔接性三个综合特征出发,经过研究分析在图片、汉字、词汇、句子、篇章等五个层面选取了59种特征作为备选特征集,并利用多元线性回归模型进行拟合。

一、关于图书的多样性

图书的多样性特征主要由图片的多样性、汉字的多样性、词汇的多样性、句子多样性及篇章多样性等18个特征通过多元线性回归模型拟合而成。表1.1为图书的多样性特征信息表。

表1.1 图书的多样性特征信息表

二、关于图书的复杂度

图书的复杂度主要由图片的复杂度、汉字的复杂度、词汇的复杂度、句子的复杂度及篇章的复杂度等25个特征通过多元线性回归模型拟合而成。表2.2为图书的复杂度特征信息表。

表2.2 图书的复杂度特征信息表

三、关于图书的衔接性

图书的衔接性主要由图片的衔接性、汉字的衔接性、词汇的衔接性、句子的衔接性、篇章的衔接性等16个特征通过多元线性回归模型拟合而成。表2.3为图书的衔接性特征信息表。

表2.3 图书的衔接性特征信息表

本发明实施例使用基于教育部基础课程发展中心和关于中小学推荐书目和全国中小学图书馆(室)推荐书目作为课外图书选取标准,构建的小学课外阅读图书语料库用于拟合小学课外阅读图书分级评价模型更加精准可信。为了有效的提高小学课外图书分级评价模型的准确率和信效度,本发明实施例从图书多样性、图书复杂度和图书衔接性三个综合特征出发,经过研究分析在图片、汉字、词汇、句子、篇章等五个层面选取了59种特征作为备选特征集,并利用多元线性回归模型进行拟合出小学课外图书分级阅读评价模型。

步骤S103,运用数据分析软件筛选出最优综合特征构建小学课外图书分级阅读评价方法;

具体地,本发明实施例对筛选出的三个综合性特征运用多元线性回归模型来拟合小学课外阅读图书分级评价模型。

具体地,如图2所示,运用自然语言处理方面的分词工具、Python数据处理程序对小学课外图书的文本特征进行提取,然后对提取到的59种文本特征集进行筛选,主要是通过分析社会科学统计软件包”(Solutions Statistical Package for the SocialSciences,简称SPSS)SPSS软件分别进行因子分析,基于降维思想探索变量之间的相关系数矩阵,根据变量相关性大小对变量进行分组,将众多变量聚合为少数几个公共因子,目的是降低数据采集和分析的难度。进行因子分析时要求变量的相关系数大于0,并且要求满足KMO检验和Bartiett的球度检验。

然后对其进行因子分析,得到文本特征与适用学段之间的相关系数r,按照绝对值的大小进行排序,采用方差扩大因子法进行多重线性诊断,若方差扩大因子(VIF)小于10时,则判定备选特征不存在共线性问题。同时计算该特征加入备选特征集后对因变量适用学段的独特解释(ΔR

接着进行回归模型的拟合,将筛选出来的文本特征作为自变量,适用学段作为因变量,进行线性回归模型的拟合,拟合后的模型主要评价指标有复相关系数R,反映了所有自变量与因变量之间的线性相关程度,其值越大,线性相关越接近;决定系数R

紧接着对模型进行整体回归效应F检验,主要是检验线性回归方程的总体显著性,用于解释变量与所有解释变量之间的线性关系是否显著,并确定用线性模型来拟合这些变量之间的关系是否适当。只有当模型的显著性<0.05时方能通过显著性检测,如果没有通过F检测,则需要考虑使用非线性回归来重新拟合。

然后需要进行模型回归系数T检验,在构建的多元回归模型中,需要考虑每一个引入的变量是否都存在影响,这种影响是否显著,最终决定是否在模型中保留这一变量,一般认为如果变量的显著性值小于0.05,表示该变量具有统计学意义。如果没有通过回归系数T检验,则需要重新对文本的特征进行筛选,重新执行上述步骤。

通过上述步骤后则可以输出得到一个多元线性回归的模型,为了检验模型效果是否显著,则需要利用测试数据集对构建的小学课外阅读图书评价方法进行验证,测试其评价性能的准确率。

通过SPSS软件计算模型的复相关系数R,其反映了所有自变量与因变量间的线性相关程度,计算决定系数R方和调整后R方,这些是衡量良好模型拟合的重要指标。接着对模型进行整体回归效应F检验,检验解释变量与所有解释变量之间的线性关系是否显著,并确定用线性模型来拟合这些变量之间的关系是否适当。最后对模型进行回归系数T检验,检验各个变量对因变量的显著性,得到小学课外图书分级阅读评价方法。

Y=αL

其中Y为适用学段,L

上述多元线性回归模型是通过SPSS软件来确定多个自变量之间的最优组合共同来预测评价最适学段,通过文本特征提取、文本特征筛选、因子分析、回归模型的拟合、模型F检验和回归系数T检验等系列操作,最终得到的小学课外图书分级阅读评价方法更加有效和符合实际情况。

步骤S104,将小学课外图书分级阅读评价方法预测图书的适用学段运用到协同过滤推荐算法计算用户相似度的过程中,采用皮尔逊相关系数计算方法计算用户之间的相似度,然后计算用户对未评分图书的预测分值。

传统的协同过滤推荐算法适用于物品数明显小于用户数的场合,若物品过大,则在计算相似度矩阵时代价很大,因此在小学课外图书推荐过程中需要对该算法进行改进。

改进后的推荐算法主要将小学课外图书分级阅读评价方法预测图书的适用学段运用到协同过滤推荐算法计算用户相似度的过程中,采用皮尔逊相关系数计算方法计算用户之间的相似度,然后计算用户对未评分图书的预测分值,计算方法如下:

其中,i表示第i本图书;I

图3为基于文本内容的小学课外阅读图书推荐系统结构示意图。图3所示系统的服务端适用Python语言的Django框架,具有完备性和通用性好的优点,数据方法使用ORM技术优化数据库的功能,提升与数据库交互的效率,用户可以更流畅地使用该系统。

基于文本内容的小学课外阅读图书推荐系统具有用户管理、图书管理、注册登录、个人中心、图书推荐等五大功能模块,图书推荐功能模块用于执行小学课外图书分级阅读评价和推荐方法。对每个功能模块从需求分析、数据库设计、前后端交互等方面进行了详细的设计,并在搭建完成该系统后对系统各个功能模块进行了相关测试。

通过采用Django框架设计实现基于文本内容的小学课外阅读图书推荐系统,该系统能够结合小学生的阶段性特点,进行分级阅读推荐。通过对小学课外阅读文本内容层面进行分析研究,提取同一学段课外读物的特征,进行针对性的推荐。为小学生推荐的课外读物能够反映其阅读兴趣,能够与其阅读能力相匹配。系统具有良好的鲁棒性和稳定性,功能完备,界面交互性好,符合用户使用习惯。

本发明实施例通过提出小学课外图书分级阅读评价方法,从图书多样性、图书复杂度和图书衔接性三个综合特征出发,经过研究分析在图片、汉字、词汇、句子、篇章等五个层面选取了59种特征作为备选特征集,拟合了小学课外阅读图书分级评价模型。充分融合了各个层面多种特征对小学课外阅读图书分级评价的影响因子,最终能够实现小学课外图书文本内容与适用学段的精准匹配。

另外,本发明实施例通过融合分级阅读评价方法提出改进后的协同过滤推荐算法,将小学课外图书分级阅读评价方法预测图书的适用学段运用到协同过滤推荐算法中从而实现精准匹配。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号