首页> 中文学位 >基于语义的网页自动摘要系统设计与实现
【6h】

基于语义的网页自动摘要系统设计与实现

代理获取

目录

声明

摘要

图目录

表目录

第一章 绪论

1.1 课题来源与意义

1.2 自动摘要的定义及其分类

1.3 自动摘要技术的研究历史及现状

1.4 研究目标与内容

1.5 论文的组织结构

1.6 本章小结

第二章 自动摘要的主要方法及相关技术

2.1 自动摘要的主要方法

2.1.1 基于特征统计的方法

2.1.2 基于文本理解的方法

2.1.3 基于信息抽取的方法

2.1.4 基于篇章结构的方法

2.2 向量空间模型简介

2.2.1 向量空间模型中的几个基本概念

2.2.2 特征向量的权重计算

2.2.3 向量空间模型的构建过程

2.3 语义模型技术简介

2.3.1 统计主题模型简介

2.3.2 语义知识模型简介

2.4 文本自动摘要与网页自动摘要区别

2.4.1 文本自动摘要的主要过程

2.4.2 网页自动摘要的主要过程

2.5 中文分词技术简介

2.6 本章小结

第三章 基于语义的网页自动摘要系统的设计

3.1 系统的设计目标

3.2 系统的总体设计

3.3 系统运行环境

3.4 系统数据库设计

3.5 系统功能模块设计

3.5.1 网页预处理模块设计

3.5.2 正文分词模块设计

3.5.3 词语和句子过滤模块设计

3.5.4 统计主题模型构建模块的设计

3.5.5 语义知识模型构建模块设计

3.5.6 模型融合模块的设计

3.5.7 句子抽取模块设计

3.6 本章小结

第四章 基于语义的网页自动摘要系统的实现

4.1 KNIME工作流模型图和每个节点相关的类

4.2 系统实现的过程介绍

4.2.1 系统主要的节点及其Model类

4.2.2 网页预处理节点的实现

4.2.3 网页正文分词节点的实现

4.2.4 词语和句子过滤节点的实现

4.2.5 向量空间矩阵构建节点的实现

4.2.6 矩阵奇异值分解节点的实现

4.2.7 语义概念抽取节点的实现

4.2.8 概念空间矩阵构建节点的实现

4.2.9 句子重要度计算节点的实现

4.2.10 两种模型融合节点的实现

4.2.11 句子抽取节点的实现

4.3 本章小结

第五章 基于语义的网页自动摘要系统的评测

5.1 系统评测指标

5.1.1 准确率(Precision)

5.1.2 召回率(Recall)

5.1.3 综合度量(F-measure)

5.2 系统参数训练与评测结果

5.2.1 概念选取度阈值t的训练

5.2.2 融合系数的训练

5.2.3 与其它摘要方法的摘要结果比较

5.2.4 系统评测结果

5.3 本章小结

第六章 总结与展望

6.1 本人承担的具体工作内容

6.2 系统待完善之处

6.3 下一步工作

6.4 本章小结

致谢

参考文献

展开▼

摘要

随着网络技术的快速发展,互联网已经成为人们获取信息资源的重要工具。网页常常是信息的载体,然而,网页中常夹杂着与正文不相关的“噪音”信息。如果能够通过网页分析技术快速提取出网页内容,将会大大提高人们获取有效信息的效率。因此,网页分析系统的研究有很大的应用价值。
  本文的目标是基于传统的自动分析方法,设计并开发出一个基于语义的网页分析系统。围绕这个目标,本文的主要工作包括以下几个方面:
  (1)总结了自动分析技术的研究现状和主要方法,在此基础上提出了一种基于语义的网页分析方法,融合基于统计主题和基于语义知识库的两种语义模型,分别从文本的结构和内容上来提取。
  (2)利用矩阵的奇异值分解技术构建了基于统计语义模型,利用《同义词词林》构建了基于语义知识库的语义模型,并将这两种模型进行了融合,构建了一种新的语义融合模型。
  (3)利用构建的融合模型,设计并实现了基于语义的网页分析系统。该系统主要由网页预处理模块、中文分词模块、词语和句子过滤模块、语义建模模块组成,其中,语义建模模块是本系统的核心部分。
  (4)对系统进行了测试和评价,实验结果表明,相比于传统的基于句子特征统计的方法,通过对准确率、召回率和综合度量这三个内部评测指标的比较分析,该方法提取出的内容质量较高,具有一定的实用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号