大规模文档标签自动标注技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

作为一种全新的网络应用，社会化标注系统（Social Bookmarking System）通过Web2.0技术为普通用户提供了便利的网络资源的标注机制，由此收集到了大量用户标注资源：标签（User Tag），并形成了一种全新的信息分类模式：分众分类法（Folksonomy）。由于受到不完整与错误的用户标注行为的影响，标签的可重用性问题成为影响社会化标注系统数据质量的关键问题。该问题在一定程度上影响了社会化标注系统的信息索引能力，并降低了标签数据作为信息资源的可用性。因此，如何在不影响用户使用体验与标注积极性的前提下，解决标签的可重用性问题，成为了社会化标注系统中一个亟待解决的关键性技术问题。
　　针对标签的可重用性问题，标签自动标注技术基于对用户的历史行为及待标注网络资源的深入分析与学习，作为一种辅助机制被提出并得到了广泛的关注。该技术可以自动筛选出与待标注资源相关的优质标签并实时的将其推荐给用户；通过标签自动标注技术，社会化标注系统可以在降低用户标注门槛的同时，鼓励用户贡献更多标签，并通过自动的质量控制策略，引导用户提供质量更高的标签，从而形成一个良性的自反馈学习系统，逐步提高标签的可重用性。
　　本文针对大规模文档的标签自动标注技术展开了相关研究，研究内容包括以下四个方面：
　　第一，通过对文本对象的深入分析，结合传统的信息推荐技术，将产生式的理论框架融入标签自动标注技术之中，提出了一种基于统计语言模型的文档标签排序标注框架（Language Model for Tag Ranking，LMTR），使得标签自动标注技术能够更为精确地描述标签集与文本对象之间的关系，并据此提出了两种排序标注语言模型，在随后的实验中，验证了上述模型的标注性能。
　　第二，针对LMTR模型所存在的标注效率问题，就大规模文档的标注效率优化问题展开了研究。通过分析影响LMTR模型标注效率的相关因素，提出了一种基于候选标签生成策略的大规模文档自动标注系统框架，以及基于向量空间模型、标签共现理论以及信息抽取理论的三种候选标签生成算法，并对上述算法进行了实验验证。
　　第三，针对标签排序推荐技术所面临的优质标签词典的构建问题，就标签质量评估问题展开了研究，提出了基于明晰度和分类特征的标签质量度量方法，并通过实验验证了上述方法的性能。随后，通过排序融合算法就标签质量对LMTR算法的影响进行了实验探索。
　　第四，基于对用户行为与社会化标注系统的深入观察，提出了最小描述标签集（Minmum Description Tag-set, MDT）的定义，并据此提出了一种全新标签自动标注框架：基于最小描述标签集的自动标注框架（MDT框架），通过将自动标注系统的标注目标从单个标签扩展至最小描述标签集，更为泛化、形式化地描述了标签集与实体之间在特定用户偏好下的依赖关系。为解决MDT框架所面临的寻找最小描述标签集的问题，提出了一种基于贪心算法的标签集寻优算法，并使用语言模型对面向文档的描述函数进行了建模。实验结果表明，MDT框架展现出了与期望相符的标注性能。

著录项

作者
孙珂;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机应用技术
授予学位博士
导师姓名王晓龙;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
大规模文档; 标签自动标注技术; 网络资源; 可重用性; LMTR模型;

相似文献

中文文献
外文文献
专利

1. 基于Simhash算法的大规模文档去重技术研究 [J] . 余意 ,张玉柱 ,胡自健 . 信息通信 . 2015,第002期
2. 大规模图像语义相关性自动标注 [J] . 田枫 ,沈旭昆 ,刘贤梅 . 计算机辅助设计与图形学学报 . 2013,第002期
3. 一种针对大规模网络图像的自动标注改善算法 [J] . 王斌 ,俞能海 . 电子与信息学报 . 2009,第002期
4. 基于标签深度分析的音乐自动标注算法 [J] . 王振宇 ,张睿 ,高雨轩 . 华南理工大学学报（自然科学版） . 2019,第008期
5. 基于多标签判别字典学习的图像自动标注 [J] . 杨晓玲 ,李志清 ,刘雨桐 . 计算机应用 . 2018,第005期
6. 基于分层图像文档模型的图像语义自动标注 [C] . 陈恋 ,周向东 ,叶剑烨 . 第二十二届中国数据库学术会议 . 2005
7. 大规模RFID系统中动态标签估计与搜索技术研究 [A] . 席忠 . 2020

大规模文档标签自动标注技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅