大规模文档标签自动标注技术研究
RESEARCH ON LARGE-SCALEDOCUMENT AUTOMATIC TAGGINGTECHNOLOGIES
摘 要
ABSTRACT
目 录
Contents
第 1 章 绪论
1.1 课题背景及意义
1.2 分众分类学概述
1.2.1 简介
1.2.2 分众分类学的应用实例
1.2.3 分众分类学在其他领域的应用
1.3 本文研究内容及相关工作
1.3.1 分众分类学研究热点
1.3.2 研究内容概述
1.3.3 研究现状
1.4 本文的内容安排
第 2 章 基于统计语言模型的排序标注技术
2.1 统计语言模型概述
2.2 排序标注语言模型
2.2.1 文档似然标注模型
2.2.2 分布距离标注模型
2.3 排序标注语言模型的估值方法
2.3.1 最大似然估计法
2.3.2 常用的平滑策略
2.3.3 基于混合模型的排序标注语言模型估值方法
2.4 实验
2.4.1 实验设计
2.4.2 文档似然标注模型实验与讨论
2.4.3 分布距离标注模型实验与讨论
2.4.4 混合模型估值实验与讨论
2.5 本章小结
第 3 章 面向大规模文档的标注效率优化技术
3.1 候选生成策略讨论
3.2 候选生成技术
3.2.1 基于标签共现的候选生成算法
3.2.2 基于内容抽取的候选生成算法
3.3 实验
3.3.1 候选生成模块验证实验
3.3.2 扩展候选生成算法验证实验与讨论
3.4 本章小结
第 4 章 标签质量评估技术
4.1 标签质量评估方法
4.1.1 基于明晰度的标签质量评估方法
4.1.2 基于特征选择的标签质量评估方法
4.2 标签排序融合技术
4.3 实验
4.3.1 优质标签集构建实验
4.3.2 标签排序融合实验
4.4 本章小结
第 5 章 基于最小描述标签集的自动标注技术
5.1 基于最小描述标签集的自动标注问题
5.2 调色标注算法
5.3 面向文档的描述函数建模及估值问题
5.3.1 基于概率插值的标签集语义模型估值方法
5.3.2 基于模糊文档集的标签集语义模型
5.4 实验
5.4.1 实验设计
5.4.2 标签集生成实验
5.5 本章小结
结 论
参考文献
攻读博士学位期间发表的论文及其他成果
哈 尔 滨 工 业 大 学 学 位 论 文 原 创 性 声 明 及 使 用 授 权 说 明
致 谢
个人简历