首页> 中文学位 >Web页面语义信息提取方法的研究
【6h】

Web页面语义信息提取方法的研究

代理获取

目录

文摘

英文文摘

第1章 绪论

1.1 问题提出

1.2 国内外研究现状

1.2.1 信息提取技术简介

1.2.2 语义Web及本体简介

1.2.3 Web语义信息提取研究现状及成果

1.3 本文的研究目标与研究内容

1.4 本文的组织机构

第2章 模型设计

2.1 Web页面语义信息提取模型

2.2 主题Web信息的提取

2.3 文本聚类

2.3.1 文本聚类的意义

2.3.2 文本聚类的过程

2.4 语义信息提取相关技术

2.4.1 现有的网页信息提取实现方法

2.4.2 基于内容的语义信息提取

2.5 本章小结

第3章 Web页面预处理算法

3.1 网页预处理

3.1.1 主题内容提取算法的比较分析

3.1.2 语义信息提取环境下的Web页面预处理方法分析

3.1.3 噪音去除方法描述

3.1.4 包含语义信息DOM树的建立

3.1.5 以段落为单位的主题内容提取

3.2 主题内容提取算法

3.3 本章小结

第4章 Web页面的文本聚类方法

4.1 基于文本聚类的语义关键词生成

4.1.1 文本聚类在语义关键词生成过程中的作用

4.1.2 基于层次的文本聚类方法

4.1.3 凝聚层次聚类及其改进

4.2 改进的HAC算法

4.2.1 HAC基本算法

4.2.2 基于段落的HAC算法文本相似度度量

4.2.3 凝聚层次聚类的合并方法改进

4.3 本章小结

第5章 基于语义簇聚类的语义信息提取

5.1 语义簇聚类

5.1.1 词聚类概述

5.1.2 语义簇聚类概念的定义

5.1.3 语义簇相关度的计算方法分析

5.2 语义信息提取算法

5.3 本章小结

第6章 算法分析与评价

6.1 实验环境及数据集

6.2 实验结果及分析

6.3 本章小结

第7章 结论与展望

参考文献

致谢

攻硕期间参加的项目及发表的论文

展开▼

摘要

Internet作为一个庞大的信息资源库,已成为人们获取信息的主要途径之一,也是教育资源的重要来源。但是,随着网上资源爆炸式地增长,人们在Web上找到自己感兴趣的资源越来越困难。搜索引擎技术的出现在一定程度上缓解了人们在搜索信息过程中遇到的困难,但是搜索引擎的弱点近年来逐渐显现,那就是它不能准确地提供给用户他们真正想搜索的信息,这是因为现有的Web内容,是以人浏览和理解为出发点而设计的,缺少计算机能够理解的信息,语义Web这时为解决此问题应运而生的。在现有的Web向语义Web过渡的过程中,人们无法立即舍弃现有的具有丰富信息的Web页面,所以现有Web页面的语义信息提取就成为能否向语义Web顺利过渡的关键。目前的Web页面语义信息提取工作需要大量的人工参与,而自动化程度较高的语义信息提取技术,性能相对较低,并且均采用定制的语言表达提取规则,缺乏通用性,系统不易升级。
   针对上述问题,本文提出一种Web页面语义信息提取模型,该模型可以自动地、批量地对Web页面进行语义标注,并自动提取领域的语义信息。具体地,使用了基于页面视觉特征技术的Web内容预处理技术,去除了网页内的噪音,提高了语义提取的速度和精度;提出了基于文本聚类的语义标注,使用基于段落的改进HAC算法,自底向上地对组成文档的各级段落进行聚类,对各级段落的候选关键词进行了提取和上卷,使聚类过程得到了各个语义层次的语义关键词;定义了“语义簇”的概念,设计了基于语义簇聚类的Web页面语义信息提取方法,根据文本聚类确定不同的阈值,控制语义实体的层次关系,利用语义簇相关度进行分析,建立语义簇之间的语义关联,并生成代表某一语义主题概念的用“种子语义簇”表示的词类,由此实现Web页面语义信息的提取。
   实验证明,基于段落层次的的改进HAC算法,缩减了语义关键词集合规模;基于改进HAC的语义簇聚类,在时间和精度上较传统算法具有更大的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号