声明
摘要
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 维基百科研究现状
1.2.2 短文本处理研究现状
1.3 本文主要研究内容
1.4 论文组织结构
2 相关理论
2.1 维基百科
2.2 文本分类
2.2.1 文本分类概念
2.2.2 文本分类流程
2.2.3 常用文本分类算法
2.3 短文本分类
2.3.1 短文本定义及特点
2.3.2 短文本分类应用领域
3 基于词频统计的TF-IDF算法
3.1 文本关键词提取流程
3.1.1 文本预处理模块
3.1.2 权重计算模块
3.1.3 提取关键词模块
3.2 词频统计规律
3.2.1 同频词数
3.2.2 各频次词语所占比重
3.3 基于词频统计的TF-IDF算法——TFIDFWFS
3.3.1 算法基本思想
3.3.2 算法流程
3.3.3 算法伪代码
3.4 实验与分析
3.4.1 实验环境
3.4.2 实验数据
3.4.3 实验结果评价标准
3.4.4 同频词数实验结果与分析
3.4.5 各频次词语所占比重实验结果与分析
3.4.6 TFIDFWFS算法实验结果与分析
3.5 本章小结
4 面向维基百科的TFIDFWFS算法
4.1 结合维基百科页面特点计算权重
4.1.1 结合文本结构
4.1.2 结合锚文本信息
4.1.3 结合类别信息
4.2 面向维基百科的TFIDFWFS算法——W-TFIDFWFS
4.2.1 算法基本思想
4.2.2 算法流程
4.2.3 算法伪代码
4.3 实验与分析
4.3.1 实验环境
4.3.2 实验数据
4.3.3 实验结果评价标准
4.3.4 W-TFIDFWFS算法实验结果与分析
4.4 本章小结
5 基于维基百科的短文本处理
5.1 基于维基百科的短文本词义消歧
5.1.1 基本思想
5.1.2 词义消歧流程
5.1.3 算法伪代码
5.2 基于维基百科的短文本特征扩展
5.2.1 基本思想
5.2.2 特征扩展流程
5.2.3 算法伪代码
5.3 实验与分析
5.3.1 实验环境
5.3.2 实验数据
5.3.3 分类结果评价标准
5.3.4 短文本处理方法实验结果与分析
5.4 本章小结
6 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
攻读学位期间取得的科研成果清单