首页> 中文学位 >大规模文档标签自动标注技术研究
【6h】

大规模文档标签自动标注技术研究

代理获取

目录

大规模文档标签自动标注技术研究

RESEARCH ON LARGE-SCALEDOCUMENT AUTOMATIC TAGGINGTECHNOLOGIES

摘 要

ABSTRACT

目 录

Contents

第 1 章 绪论

1.1 课题背景及意义

1.2 分众分类学概述

1.2.1 简介

1.2.2 分众分类学的应用实例

1.2.3 分众分类学在其他领域的应用

1.3 本文研究内容及相关工作

1.3.1 分众分类学研究热点

1.3.2 研究内容概述

1.3.3 研究现状

1.4 本文的内容安排

第 2 章 基于统计语言模型的排序标注技术

2.1 统计语言模型概述

2.2 排序标注语言模型

2.2.1 文档似然标注模型

2.2.2 分布距离标注模型

2.3 排序标注语言模型的估值方法

2.3.1 最大似然估计法

2.3.2 常用的平滑策略

2.3.3 基于混合模型的排序标注语言模型估值方法

2.4 实验

2.4.1 实验设计

2.4.2 文档似然标注模型实验与讨论

2.4.3 分布距离标注模型实验与讨论

2.4.4 混合模型估值实验与讨论

2.5 本章小结

第 3 章 面向大规模文档的标注效率优化技术

3.1 候选生成策略讨论

3.2 候选生成技术

3.2.1 基于标签共现的候选生成算法

3.2.2 基于内容抽取的候选生成算法

3.3 实验

3.3.1 候选生成模块验证实验

3.3.2 扩展候选生成算法验证实验与讨论

3.4 本章小结

第 4 章 标签质量评估技术

4.1 标签质量评估方法

4.1.1 基于明晰度的标签质量评估方法

4.1.2 基于特征选择的标签质量评估方法

4.2 标签排序融合技术

4.3 实验

4.3.1 优质标签集构建实验

4.3.2 标签排序融合实验

4.4 本章小结

第 5 章 基于最小描述标签集的自动标注技术

5.1 基于最小描述标签集的自动标注问题

5.2 调色标注算法

5.3 面向文档的描述函数建模及估值问题

5.3.1 基于概率插值的标签集语义模型估值方法

5.3.2 基于模糊文档集的标签集语义模型

5.4 实验

5.4.1 实验设计

5.4.2 标签集生成实验

5.5 本章小结

结 论

参考文献

攻读博士学位期间发表的论文及其他成果

哈 尔 滨 工 业 大 学 学 位 论 文 原 创 性 声 明 及 使 用 授 权 说 明

致 谢

个人简历

展开▼

摘要

作为一种全新的网络应用,社会化标注系统(Social Bookmarking System)通过Web2.0技术为普通用户提供了便利的网络资源的标注机制,由此收集到了大量用户标注资源:标签(User Tag),并形成了一种全新的信息分类模式:分众分类法(Folksonomy)。由于受到不完整与错误的用户标注行为的影响,标签的可重用性问题成为影响社会化标注系统数据质量的关键问题。该问题在一定程度上影响了社会化标注系统的信息索引能力,并降低了标签数据作为信息资源的可用性。因此,如何在不影响用户使用体验与标注积极性的前提下,解决标签的可重用性问题,成为了社会化标注系统中一个亟待解决的关键性技术问题。
  针对标签的可重用性问题,标签自动标注技术基于对用户的历史行为及待标注网络资源的深入分析与学习,作为一种辅助机制被提出并得到了广泛的关注。该技术可以自动筛选出与待标注资源相关的优质标签并实时的将其推荐给用户;通过标签自动标注技术,社会化标注系统可以在降低用户标注门槛的同时,鼓励用户贡献更多标签,并通过自动的质量控制策略,引导用户提供质量更高的标签,从而形成一个良性的自反馈学习系统,逐步提高标签的可重用性。
  本文针对大规模文档的标签自动标注技术展开了相关研究,研究内容包括以下四个方面:
  第一,通过对文本对象的深入分析,结合传统的信息推荐技术,将产生式的理论框架融入标签自动标注技术之中,提出了一种基于统计语言模型的文档标签排序标注框架(Language Model for Tag Ranking,LMTR),使得标签自动标注技术能够更为精确地描述标签集与文本对象之间的关系,并据此提出了两种排序标注语言模型,在随后的实验中,验证了上述模型的标注性能。
  第二,针对LMTR模型所存在的标注效率问题,就大规模文档的标注效率优化问题展开了研究。通过分析影响LMTR模型标注效率的相关因素,提出了一种基于候选标签生成策略的大规模文档自动标注系统框架,以及基于向量空间模型、标签共现理论以及信息抽取理论的三种候选标签生成算法,并对上述算法进行了实验验证。
  第三,针对标签排序推荐技术所面临的优质标签词典的构建问题,就标签质量评估问题展开了研究,提出了基于明晰度和分类特征的标签质量度量方法,并通过实验验证了上述方法的性能。随后,通过排序融合算法就标签质量对LMTR算法的影响进行了实验探索。
  第四,基于对用户行为与社会化标注系统的深入观察,提出了最小描述标签集(Minmum Description Tag-set, MDT)的定义,并据此提出了一种全新标签自动标注框架:基于最小描述标签集的自动标注框架(MDT框架),通过将自动标注系统的标注目标从单个标签扩展至最小描述标签集,更为泛化、形式化地描述了标签集与实体之间在特定用户偏好下的依赖关系。为解决MDT框架所面临的寻找最小描述标签集的问题,提出了一种基于贪心算法的标签集寻优算法,并使用语言模型对面向文档的描述函数进行了建模。实验结果表明,MDT框架展现出了与期望相符的标注性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号