首页> 中文学位 >基于互联网的话题分类及敏感话题发现技术研究与实现
【6h】

基于互联网的话题分类及敏感话题发现技术研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1. 1 课题的背景与意义

1. 2 话题发现技术的现状及未来

1. 3 课题研究的主要工作及内容

1. 4 本论文的论述结构

第二章 本论文涉及基础知识及技术介绍

2. 1 话题爬虫介绍

2. 2 全文检索引擎Lucene

2.3 WEB文本挖掘技术

2. 4本章小结

第三章 系统整体框架设计

3. 1话题发现系统所面临重点与难点

3. 2 解析具体框架

3. 3 本章小结

第四章 系统详细设计与代码实现

4. 1 话题爬取模块设计与实现

4. 2 话题索引与分类模块设计

4. 3话题查询与推送模块

4. 4 本章小结

第五章 系统测试

5. 1 测试环境

5. 2 测试流程

5. 3 测试结果

5. 3本章小结

第六章 总结与展望

6. 1 本论文工作总结

6. 2 今后展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

随着计算机网络的蓬勃发展,人们获取信息及知识的渠道也发生了很大的变化。传统方式的信息传播,如电视、报纸、广播等方式,逐渐退出了传媒的主流地位。互联网这一新兴的传播方式很快被人们所接受,中国网民目前数量大约6亿多(包含手机终端等),极致反映出互联网信息的重要性。虽然互联网是现在人们获得信息的一种常用且重要的手段,但是它是巨大的、复杂的、多样的和动态变化的。所以,在数以亿计海量的数据面前,如何快速且准确地获取用户感兴趣的信息与知识,是本论文的终极目标。
  在本系统中,我们运用的主要技术有话题爬虫、全文检索以及WEB文本挖掘。通过对这些技术研究与实现,有价值的知识和高层次的话题就能从相应的话题集合中抽取出来,从而使得凌乱、庞大的话题集为我们提供可靠且有序的知识支持与话题支撑服务;这个系统不仅能够查找出以往过期的话题(即历史话题),而且能够分析出哪个话题更具有权威性以及哪个话题与关键字匹配更密切,为用户得到更好的查询与体验效果提供了有力的支持。只不过,本系统中的话题来源于异常庞大的互联网,与常见的数据库和数据集合有很大不同。所以,我们首要任务要得到话题源,也就是从互联网上爬取相关的页面话题,然后进行处理,整理并过滤掉垃圾信息,为后面挖掘所感兴趣的知识提供基础数据支持,这个过程我们称之为话题爬虫。挖掘话题的实现是通过建立索引、分类话题以及检索话题来完成的。系统调用目前比较完善的全文检索系统Lucene所提供的应用程序相关接口,分析相应话题,构建索引,实现了通过。

著录项

  • 作者

    王甲坤;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 刘乃琦;
  • 年度 2011
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TP393.09;
  • 关键词

    话题爬虫; 全文检索; 文本挖掘; 互联网技术;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号