首页> 中文学位 >面向英语学习的文本难度判定
【6h】

面向英语学习的文本难度判定

代理获取

目录

面向英语学习的文本难度判定

TEXT DIFFICULTY MEASUREMENGT FOR THE ENGLISH LEARNING

摘要

Abstract

第1章 绪论

1.1 课题研究背景及意义

1.2 国内外相关领域的研究历史与现状

1.3 本文研究的内容及结构

第2章 基于易读性公式的文本难度判定

2.1 概述

2.2 易读性公式的形成

2.3 几个典型的易读性公式介绍

2.4 对国内易读性公式应用系统的分析

2.5 实验结果分析

2.6 本章小结

第3章 基于向量空间模型的文本难度判定

3.1 概述

3.2 文本表示

3.3 文本预处理

3.4 本章小结

第4章 文本特征选择与赋权

4.1 概述

4.2 特征项选择

4.3 权重计算

4.4 本章小结

第5章 常用分类算法和实验结果分析

5.1 常用分类算法

5.2 语料库

5.3 评价方法

5.4 实验结果分析

5.5 本章小结

结论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

展开▼

摘要

英文文本难度判定是应用语言学和信息处理领域的重要课题,正广泛应用于教学、出版和搜索引擎等领域。现在的网络资源非常丰富,如何高效准确地为不同水平的英语学习者提供适合自身水平的阅读材料,是文本难度判定面临的最大挑战。
  本文首先介绍了一种在国际上广泛使用的文本难度判定方法:基于易读性公式判定文本的难度。通常易读性公式使用文本的词汇难度和句法难度来判定文本的难度,词汇难度以词频和词长来衡量,句子的难度以句子的长度来衡量。目前易读性公式已有上百个,本文选择了三个典型的易读性公式傅莱区易读性公式(Flesch Reading Ease)、迷惑指数(Gunning Fog Index)和自动易读性指数(Automated Readability Index)在一定数量的文本上进行了验证。尽管通过易读性公式进行文本难度判定比较容易施行,但是计算值过于集中,无法进行等级划分。
  本文试图建立一种有广泛应用价值的模型判定文本的难度,向量空间模型是一种典型的文本表示方法,它不考虑词汇之间的顺序,把文本表示为向量空间中的一个向量,文本的相似度可以通过内积或者夹角余弦值来计算,实现起来比较方便。本文基于向量空间模型进行文本难度判定,把文本难度判定问题当成是一个分类问题来解决。这种方法有很多的优点,其中之一就是它的结果不是二元值,而是它的整个训练集上的概率值,第二就是提供额外的信息。本文对几种常用的特征选择方法如文档频率、信息增益、互信息、2X统计量、期望交叉熵、文本证据权、几率比等进行了分析,并进行了实验验证,结果表明几率比效果最好,互信息效果最差。分析了TF-IDF权重算法的不足,考虑结合TF-IDF与类间、类内分布信息的改进了权重算法,实验结果表明改进的权重算法提高了分类的F1值。
  最后主要考察了Rocchio’s算法,K-近邻法、朴素贝叶斯法这三种分类算法,通过实验检测了这三种算法的性能,结果表明多项式贝叶斯方法的分类F1值最高,达到了80%以上。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号