首页> 中文学位 >WEB论坛信息自动摘录技术研究
【6h】

WEB论坛信息自动摘录技术研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1课题背景

1.2自动摘要技术的发展

1.3研究目标及意义

1.4工作重点和创新点

1.4.1工作重点

1.4.2创新点

1.5本文组织

1.6本章小结

第二章WEB论坛概述

2.1WEB论坛的历史

2.2WEB论坛的特点

2.3WEB论坛的价值和影响力

2.4高校WEB论坛简介

2.5本章小结

第三章WEB论坛信息自动摘录关键技术研究

3.1文档数据预处理关键技术研究

3.1.1特征项的选择

3.1.2文本分词处理

3.1.3特征表示及特征词项的权值计算

3.1.4特征项提取

3.2文档摘要生成关键技术研究

3.2.1自动摘要原理

3.2.2摘要分类

3.2.3自动摘要方法分析

3.3自动编制摘要应考虑的因素

3.3.1篇章结构特征

3.3.2词的意义及数量特征

3.3.3句法结构特征

3.3.4排版特征

3.3.5标记文本的格式符号

3.4自动摘要评价方法

3.5与自动摘要系统发展相关的技术难点

3.6本章小结

第四章WEB论坛信息自动摘录系统

4.1设计目标及原则

4.2系统的总体结构

4.3系统的主要功能模块

4.3.1获取论坛文本模块

4.3.2文本预处理模块

4.3.3分词模块

4.3.4统计分析模块

4.3.5提取摘要模块

4.3.6输出摘要模块

4.4系统开发环境

4.5系统实现

4.5.1系统程序界面

4.5.2实验结果分析

4.6本章小结

结束语

参考文献

致谢

展开▼

摘要

随着WWW技术的发展和普及,人们不再仅仅满足于被动地从网络中获取信息,更多的用户开始将自己的文章放到网络上与其他用户交流。在这一过程中,WEB论坛作为用户发表文章的场所,也迅速地发展起来,从而论坛站点中积累了丰富的文档资料,其中不仅有各种各样的技术资料和新闻资讯,还包括众多用户的观点和评论,这使得WEB论坛在互联网信息检索及信息安全等领域有着不可替代的独特价值。人们根本无法通过阅读所有的论坛文档获得他们需要的信息,迫切需要信息压缩精选工具来对大量信息进行提炼、浓缩,以帮助用户快速地定位需要了解的内容,而自动摘录技术正是解决这一难题的有力工具之一。 自动摘要技术是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获得信息、提取信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从而提高信息检索、传播的效率。现有的自动摘要方法概括为自动摘录、基于理解的自动文摘、信息抽取和基于结构的自动文摘等四种主要的自动摘要方法。自动摘录依据的是文本形式上的规律,因此它几乎适用于任何文献。基于理解的文摘方法需要对文章进行全面的分析,生成详尽的语义表达,因此受领域限制,对于大规模真实文本而言是很难实现的。由于信息抽取方法的框架编写完全依赖于领域知识,也受领域限制。语言学对于篇章结构的研究还很不够,基于结构的自动文摘到目前为止还没有一套成熟的方法。 本文研究的自动摘录技术采用自动摘录原文中旬子生成摘录性摘要的方法,它将文本视为句子的线性序列,将句子视为词的线性序列。通过计算句子的权值,对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句,将所有文摘句按照它们在原文中的出现顺序输出。系统基于Delphi开发实现,主要分为论坛帖子获取、文本预处理、分词、统计分析、提取摘要、输出摘要六个功能模块,其中用到了分词、权值计算等方面的相关算法。考虑到实际使用的速度和质量,系统分词采用了正向最大频率匹配法则。系统实现的功能就是给定一个论坛帖子,经过统计分析,给出摘要句并依照原文顺序依次输出,摘要句力求抓住原文的核心内容,语句连贯,不遗漏主题。 本文的创新点:(1)提出把自动摘录技术应用于WEB论坛的信息管理,以提高论坛信息检索效率,实现论坛信息安全保障。(2)编写最新的高频大词库,按词条首字第一字节内码索引,提高分词准确率,加快分词速度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号