Web页面语义信息提取方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

Internet作为一个庞大的信息资源库，已成为人们获取信息的主要途径之一，也是教育资源的重要来源。但是，随着网上资源爆炸式地增长，人们在Web上找到自己感兴趣的资源越来越困难。搜索引擎技术的出现在一定程度上缓解了人们在搜索信息过程中遇到的困难，但是搜索引擎的弱点近年来逐渐显现，那就是它不能准确地提供给用户他们真正想搜索的信息，这是因为现有的Web内容，是以人浏览和理解为出发点而设计的，缺少计算机能够理解的信息，语义Web这时为解决此问题应运而生的。在现有的Web向语义Web过渡的过程中，人们无法立即舍弃现有的具有丰富信息的Web页面，所以现有Web页面的语义信息提取就成为能否向语义Web顺利过渡的关键。目前的Web页面语义信息提取工作需要大量的人工参与，而自动化程度较高的语义信息提取技术，性能相对较低，并且均采用定制的语言表达提取规则，缺乏通用性，系统不易升级。
　　针对上述问题，本文提出一种Web页面语义信息提取模型，该模型可以自动地、批量地对Web页面进行语义标注，并自动提取领域的语义信息。具体地，使用了基于页面视觉特征技术的Web内容预处理技术，去除了网页内的噪音，提高了语义提取的速度和精度；提出了基于文本聚类的语义标注，使用基于段落的改进HAC算法，自底向上地对组成文档的各级段落进行聚类，对各级段落的候选关键词进行了提取和上卷，使聚类过程得到了各个语义层次的语义关键词；定义了“语义簇”的概念，设计了基于语义簇聚类的Web页面语义信息提取方法，根据文本聚类确定不同的阈值，控制语义实体的层次关系，利用语义簇相关度进行分析，建立语义簇之间的语义关联，并生成代表某一语义主题概念的用“种子语义簇”表示的词类，由此实现Web页面语义信息的提取。
　　实验证明，基于段落层次的的改进HAC算法，缩减了语义关键词集合规模；基于改进HAC的语义簇聚类，在时间和精度上较传统算法具有更大的优势。

著录项

作者
杨培颖;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机应用技术
授予学位硕士
导师姓名于戈;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
Web页面; 文本聚类; 语义信息; 语义簇聚类; 信息提取;

相似文献

中文文献
外文文献
专利

1. 在线旅游业务中Web页面主体块提取方法研究 [J] . 白鹤 ,赵志强 ,王劲林 . 微计算机信息 . 2010,第015期
2. Web页面表格内容的提取方法研究 [J] . 鲍仕壮 ,徐超 ,谭守标 . 软件导刊 . 2008,第9期
3. 基于句法和语义信息的问句特征提取方法 [J] . 许莉 ,王大玲 ,夏秀峰 . 计算机工程 . 2010,第021期
4. Web页面分类中特征提取方法的改进 [J] . 焦莉娟 ,冯丽萍 . 科技广场 . 2009,第009期
5. 非遗图像语义信息本体构建及其关联数据存储和发布研究 [J] . 朱学芳 ,王若宸 . 现代情报 . 2021,第006期
6. 基于标签密度的Web页面正文内容提取方法 [C] . 胡慧君 ,贾焱 ,刘茂福 . 第七届中文信息处理国际会议 . 2007
7. 基于语义信息的移动Web页面转换设计与实现 [A] . 谢伟 . 2011

Web页面语义信息提取方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅