基于互联网的构件库系统构件描述信息抽取算法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

基于构件的软件开发方法被视为解决软件危机的现实可行途径,这种方法的前提是需要大量可以使用的元构件,为了解决构件的来源问题,当前互联网涌现了一批构件资源下载网站,但是这些构件资源总体分散,这对构件的准确、全面获取造成极大的不便,对这些构件资源网站的构件描述信息进行抽取、然后重新组织和整合,构建一个基于互联网的构件库系统,并提供统一的入口供构件获取者检索,具有重大的现实意义。
　　构建基于互联网的构件库系统涉及到三个方面的关键技术,1)主题爬虫技术,主要从互联网当中采集包含有构件信息的web文档;2)信息抽取技术,从采集到的web页面中自动获取构件描述信息,并把它转换成语义更为清晰、更为结构化的格式;3)构件检索,对抽取到的信息进行标注、挖掘,并进行合理的组织和存储,提供一个入口供用户检索。本文将就信息抽取中的相关问题重点展开讨论,这是一个承上启下的研究,对上它需要对粗糙的、杂而无序的网页进行分析处理,提取出有效的构件描述信息,对下它需要以合理的方式进行组织,为后续的构件挖掘、构件检索提供便利。
　　目前的一些网页信息抽取算法主要分为基于html结构、包装器归纳、网页语义分析三类,针对这些算法在抽取基于互联网的构件描述信息上的不足,提出了一种基于主题相似度不断逼近的构件信息抽取算法,通过引入结构化抽取模型的同义词表,屏蔽不同构件库网站对构件描述的差异,同时利用构件描述信息往往聚集在某个特定标签节点之下的结构特征,不断计算每个标签节点的主题相似度直到最大,从而达到精确定位和抽取目标信息的目的。充分且详实的实验表明,该算法在保证较高抽取率的前提下,实现起来相对简单,时间性能有小幅提升,同时可维护性好以及对网站结构的动态变化有很好的适应能力。

著录项

作者
周赵鹏;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名徐丽萍;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.52;
关键词
软件开发; 信息处理; 构件库系统; 构件描述信息; 抽取算法;

相似文献

中文文献
外文文献
专利

1. 跨构件库的刻面描述构件查询匹配算法研究 [J] . 钟春平 ,郭国平 ,郑有才 . 计算机工程 . 2006,第021期
2. 一种支持构件关系描述的构件库信息模型 [J] . 张经国 ,郭民 . 现代电子技术 . 2011,第019期
3. 一种基于软构件描述文本信息抽取的检索方法 [J] . 韩忠愿 ,谢丹 . 微型机与应用 . 2013,第002期
4. 基于本体描述构件库中的本体演化研究 [J] . 杨明华 ,钱乐秋 ,赵文耘 . 计算机工程 . 2007,第009期
5. 基于构件库技术的装备保障信息系统的研究 [J] . 贺伟雄 ,陈海松 ,何鑫 . 装备制造技术 . 2014,第006期
6. 基于SOA的构件库分析设计及其组装算法研究 [C] . 周相兵 ,杨小平 ,杨兴江 . 信息系统协会中国分会第二届学术年会 . 2007
7. 基于刻面描述的分布式构件库系统的研究 [A] . 陈志勇 . 2010

基于互联网的构件库系统构件描述信息抽取算法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅