面向英语学习的文本难度判定

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

英文文本难度判定是应用语言学和信息处理领域的重要课题，正广泛应用于教学、出版和搜索引擎等领域。现在的网络资源非常丰富，如何高效准确地为不同水平的英语学习者提供适合自身水平的阅读材料，是文本难度判定面临的最大挑战。
　　本文首先介绍了一种在国际上广泛使用的文本难度判定方法：基于易读性公式判定文本的难度。通常易读性公式使用文本的词汇难度和句法难度来判定文本的难度，词汇难度以词频和词长来衡量，句子的难度以句子的长度来衡量。目前易读性公式已有上百个，本文选择了三个典型的易读性公式傅莱区易读性公式（Flesch Reading Ease）、迷惑指数（Gunning Fog Index）和自动易读性指数（Automated Readability Index）在一定数量的文本上进行了验证。尽管通过易读性公式进行文本难度判定比较容易施行，但是计算值过于集中，无法进行等级划分。
　　本文试图建立一种有广泛应用价值的模型判定文本的难度，向量空间模型是一种典型的文本表示方法，它不考虑词汇之间的顺序，把文本表示为向量空间中的一个向量，文本的相似度可以通过内积或者夹角余弦值来计算，实现起来比较方便。本文基于向量空间模型进行文本难度判定，把文本难度判定问题当成是一个分类问题来解决。这种方法有很多的优点，其中之一就是它的结果不是二元值，而是它的整个训练集上的概率值，第二就是提供额外的信息。本文对几种常用的特征选择方法如文档频率、信息增益、互信息、2X统计量、期望交叉熵、文本证据权、几率比等进行了分析，并进行了实验验证，结果表明几率比效果最好，互信息效果最差。分析了TF-IDF权重算法的不足，考虑结合TF-IDF与类间、类内分布信息的改进了权重算法，实验结果表明改进的权重算法提高了分类的F1值。
　　最后主要考察了Rocchio’s算法，K-近邻法、朴素贝叶斯法这三种分类算法，通过实验检测了这三种算法的性能，结果表明多项式贝叶斯方法的分类F1值最高，达到了80％以上。

著录项

作者
吴锦霞;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名刘秉权;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
英语学习; 文本难度判定; TF-IDF权重算法; 多项式贝叶斯;

相似文献

中文文献
外文文献
专利

1. 基于向量空间模型的英文文本难度判定 [J] . 陈炎龙 ,张志明 . 电脑知识与技术 . 2010,第012期
2. 英语口音和文本难度对英语学习者听力理解的影响 [J] . 陆俊花 . 南京工程学院学报（社会科学版） . 2017,第002期
3. 英语词汇自适应测试系统中词汇难度的判定 [J] . 胡一平 ,高佳佳 ,陆宏 . 现代教育技术 . 2016,第003期
4. 优秀英语学习者英语学习经验调查:基于Q法的文本分析 [J] . 姚孝军 . 解放军外国语学院学报 . 2009,第001期
5. 中国英语学习者关系从句使用难度等级研究 [J] . 侯建东 . 重庆理工大学学报 . 2015,第009期
6. 汉语文本阅读难度模型及易讯性公式研究 [C] . 陈阿林 . 计算语言学文集 . -1
7. 文本难度、文本类型与话题熟悉度对二语阅读理解的影响 [A] . 储晓燕 . 2013

面向英语学习的文本难度判定

目录

摘要

著录项

相似文献

相关主题

期刊订阅