WEB论坛信息自动摘录技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着WWW技术的发展和普及，人们不再仅仅满足于被动地从网络中获取信息，更多的用户开始将自己的文章放到网络上与其他用户交流。在这一过程中，WEB论坛作为用户发表文章的场所，也迅速地发展起来，从而论坛站点中积累了丰富的文档资料，其中不仅有各种各样的技术资料和新闻资讯，还包括众多用户的观点和评论，这使得WEB论坛在互联网信息检索及信息安全等领域有着不可替代的独特价值。人们根本无法通过阅读所有的论坛文档获得他们需要的信息，迫切需要信息压缩精选工具来对大量信息进行提炼、浓缩，以帮助用户快速地定位需要了解的内容，而自动摘录技术正是解决这一难题的有力工具之一。自动摘要技术是自然语言处理领域的一项重要的研究内容，其研究目的是探索人类从自然语言篇章中获得信息、提取信息的思维机制，并在此基础上开发出能够自动编写文献摘要的软件，从而提高信息检索、传播的效率。现有的自动摘要方法概括为自动摘录、基于理解的自动文摘、信息抽取和基于结构的自动文摘等四种主要的自动摘要方法。自动摘录依据的是文本形式上的规律，因此它几乎适用于任何文献。基于理解的文摘方法需要对文章进行全面的分析，生成详尽的语义表达，因此受领域限制，对于大规模真实文本而言是很难实现的。由于信息抽取方法的框架编写完全依赖于领域知识，也受领域限制。语言学对于篇章结构的研究还很不够，基于结构的自动文摘到目前为止还没有一套成熟的方法。本文研究的自动摘录技术采用自动摘录原文中旬子生成摘录性摘要的方法，它将文本视为句子的线性序列，将句子视为词的线性序列。通过计算句子的权值，对原文中的所有句子按权值高低降序排列，权值最高的若干句子被确定为文摘句，将所有文摘句按照它们在原文中的出现顺序输出。系统基于Delphi开发实现，主要分为论坛帖子获取、文本预处理、分词、统计分析、提取摘要、输出摘要六个功能模块，其中用到了分词、权值计算等方面的相关算法。考虑到实际使用的速度和质量，系统分词采用了正向最大频率匹配法则。系统实现的功能就是给定一个论坛帖子，经过统计分析，给出摘要句并依照原文顺序依次输出，摘要句力求抓住原文的核心内容，语句连贯，不遗漏主题。本文的创新点：(1)提出把自动摘录技术应用于WEB论坛的信息管理，以提高论坛信息检索效率，实现论坛信息安全保障。(2)编写最新的高频大词库，按词条首字第一字节内码索引，提高分词准确率，加快分词速度。

著录项

作者
刘建培;
展开▼
作者单位

华南理工大学;

展开▼
授予单位华南理工大学;
学科计算机技术
授予学位硕士
导师姓名胡劲松,田文春;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
论坛; 互联网信息检索; 自动摘要; 摘录; 自动文摘; 技术; 方法; 用户; 领域; 分词; 自然语言处理; 信息抽取; 信息安全保障; 线性序列; 文本预处理; 统计分析; 权值; 系统; 提高; 输出;

相似文献

中文文献
外文文献
专利

1. 04’中国企业自动化和信息化建设论坛暨中南六省（区）自动化学会学术年会专题报道——自动化信息化企业化——04’中国企业自动化和信息化建设论坛暨中南六省（区）自动化学会学术年会成功召开 [J] . . 变频器世界 . 2004,第012期
2. 基于Web信息的关系型信息错误自动检测与修复技术研究综述 [J] . 刘海龙 ,李战怀 ,陈群 . 计算机学报 . 2017,第010期
3. 面向领域的Web信息自动抽取技术研究 [J] . 陈建彪 . 计算机光盘软件与应用 . 2012,第024期
4. 全国先进制造技术高层论坛暨第八届制造业自动化与信息化技术研究讨会征文通知 [J] . . 制造业自动化 . 2009,第006期
5. 网络信息摘录与脱机Web应用程序的构建 [J] . 张宝明 . 信息技术 . 2014,第002期
6. 发挥火炬基地作用推动软件外包产业发展——在第二届国际投资促进论坛上的讲话摘录 [C] . 马彦民 . 2009科技金融创新发展高层论坛 . 2009
7. Web数据挖掘、信息采集技术研究及在网络新闻自动抓取中的应用 [A] . 戚扬 . 2012

WEB论坛信息自动摘录技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅