声明
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 基于统计特征的文本挖掘
1.2.2 短语挖掘
1.2.3 特征加权
1.3 本文主要研究内容
1.4 论文组织结构
2 相关理论与研究
2.1 计算语言学
2.1.1 计算语言学基本内容
2.1.2 计算语言学研究方法
2.1.3 计算语言学具体应用
2.2 自动关键词提取
2.2.1 自动关键词提取技术和方法
2.2.2 自动关键词提取面临的挑战
2.3 Quality Phrase挖掘
2.3.1 Quality Phrase 挖掘研究动机
2.3.2 Quality Phrase 挖掘相关技术
2.3.3 Quality Phrase 与关键词的主要区别
3 基于统计特征的Quality Phrase 评价准则
3.1 频繁性准则
3.1.1 原始频数
3.1.2 矫正频数
3.2 组合性准则
3.2.1 卡方检验作为统计意义度量函数
3.2.2 点互信息作为统计意义度量函数
3.2.3 t检验作为统计意义度量函数
3.3 信息性准则
3.4 完整性准则
3.5 实验
3.5.1 实验环境
3.5.2 实验数据
3.5.3 实验结果评价标准
3.5.4 实验结果与分析
3.6 本章小结
4 基于统计特征的候选短语挖掘方法
4.1 候选短语挖掘
4.1.1 频繁n-gram短语挖掘
4.1.2 多词短语组合性约束
4.1.3 单词短语拼写检查
4.2 基于索引信息的频繁n-gram挖掘算法
4.2.1 基本思想
4.2.2 算法流程
4.2.3 算法伪代码
4.3 基于统计特征的候选短语挖掘方法
4.3.2 算法流程
4.3.3 算法伪代码
4.4 实验
4.4.1 实验环境
4.4.2 实验数据
4.4.3 实验结果评价标准
4.4.4 实验结果与分析
4.5 本章小结
5 基于统计特征的Quality Phrase 选择方法
5.1 Quality Phrase加权方法
5.1.1 基于类别信息的Quality Phrase准则加权方法
5.1.2 基于皮尔逊相关系数的Quality Phrase 准则权重改进方法
5.2 基于统计特征的Quality Phrase选择方法
5.2.1 基本思想
5.2.2 算法流程
5.2.3 算法伪代码
5.3 实验
5.3.1 实验环境
5.3.2 实验数据
5.3.3 实验结果评价标准
5.3.4 实验对比算法
5.3.5 实验结果与分析
5.4 本章小结
6 总结与展望
6.1 总结
6.2 展望
参考文献
致 谢
攻读学位期间取得的科研成果清单
河北师范大学;