首页> 中文学位 >基于论坛关键字搜索的改进TF-IDF算法及其应用
【6h】

基于论坛关键字搜索的改进TF-IDF算法及其应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪 论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 本文的组织结构

第2章 相关理论知识

2.1 引言

2.2 关键词提取方法

2.3 文本挖掘与文本聚类

2.4 中文词汇特点

2.5 论坛特性

2.6 论坛帖子结构特征

2.7 中文分词

2.8 网络爬虫

第3章 基于论坛的TF-IDF算法的改进

3.1 TF-IDF算法

3.2 TF-IDF算法在基于论坛的关键词提取中的不足

3.3 TF-IDF算法的改进

3.4 改进后的TF-IDF算法的测试

第4章 系统分析与设计

4.1 系统概况

4.2 需求分析

4.3 系统设计目标与原则

4.4 系统结构

4.5 系统功能

4.6 系统总体流程

4.7 数据库设计

4.8 模块设计

第五章 系统实现与测试

5.1 系统环境

5.2系统界面

5.3 系统测试

5.4 系统性能分析

第6章 总结与展望

6.1总结

6.2展望

参考文献

致谢

在读期间公开发表论文(著)及科研情况

展开▼

摘要

伴随互联网的发展,网络在人们的生活中扮演着越来越重要的角色。论坛作为互联网时代的产物雨后春笋般的出现,如滚雪球般快速的发展并且壮大。各类论坛几乎包括了与人们息息相关的方方面面,所有人都可能找到各自喜欢的论坛,而且各类型的站点也都倾向于架设与自己相关的论坛,这样既可以有助于与用户沟通,也能让用户之间有更多的互动,同时又增加了站点的内容。论坛是一个有概括性质的类,它的里面包含很多的版块,网友数量多,所以发布的帖子数量巨大。如何能够快速找到自己需要的帖子,最常用的方法是在搜索框中输入关键字进行检索。但是,如何提高在论坛中关键词搜索的准确率与速度,这和文本的分词与关键词权重的计算有很大关系。
  原始的TF-IDF关键词权重计算方法,虽然公式结构简单,算法运行时间也短,但是关键词抽取的结果并不准确,特别是针对论坛的帖子内容,提取的关键词对帖子的内容往往起不到关键性的作用,直接影响到搜索效率。
  为了提高关键词搜索系统的性能,针对帖子文本多由生活语言构成和文本结构简单的特点,加之回帖较为简单且多为毫无意义的灌水贴,很难将回帖进行区分,干扰明显,本文在关键词提取中对TF-IDF进行了改进。主要方法有:
  (1)在帖子分类时,针对瑶湖论坛计算出一些帖子之间的余弦值,在已有理论的基础上,进行人工观察,当发现帖子文本表现出关联性时,这个值高于0.18,我们将0.18设为帖子分类的阀值。
  (2)为了增强分词器的分词效果,我们在系统中增加了停止词词典和关键词词典,并且可以修改词典。分词后通过与两个词典的对比,就能判断哪些词可以忽略掉,哪些词具有代表性。
  (3)充分考虑帖子的结构特征,只考虑帖子的题目和原帖的内容,并引入关键系数这个概念,对TF-IDF公式进行修改。
  (4)为了使我们提取的词具有较好的代表性,我们对所得关键词的权重值设定一个阀值,只有提取词的TF-IDF值大于这个阀值时,才认为是关键词,否则就忽略掉。
  在此基础之上我们设计并实现了以瑶湖论坛为背景的关键词搜索系统,该系统主要分为三个部分:基础数据管理模块、分词及关键字提取模块和用户搜索模块。实验结果表明,采用改进后的方法对论坛帖子搜索效率有所提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号