基于互联网的话题分类及敏感话题发现技术研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机网络的蓬勃发展，人们获取信息及知识的渠道也发生了很大的变化。传统方式的信息传播，如电视、报纸、广播等方式，逐渐退出了传媒的主流地位。互联网这一新兴的传播方式很快被人们所接受，中国网民目前数量大约6亿多（包含手机终端等），极致反映出互联网信息的重要性。虽然互联网是现在人们获得信息的一种常用且重要的手段，但是它是巨大的、复杂的、多样的和动态变化的。所以，在数以亿计海量的数据面前，如何快速且准确地获取用户感兴趣的信息与知识，是本论文的终极目标。
　　在本系统中，我们运用的主要技术有话题爬虫、全文检索以及WEB文本挖掘。通过对这些技术研究与实现，有价值的知识和高层次的话题就能从相应的话题集合中抽取出来，从而使得凌乱、庞大的话题集为我们提供可靠且有序的知识支持与话题支撑服务；这个系统不仅能够查找出以往过期的话题（即历史话题），而且能够分析出哪个话题更具有权威性以及哪个话题与关键字匹配更密切，为用户得到更好的查询与体验效果提供了有力的支持。只不过，本系统中的话题来源于异常庞大的互联网，与常见的数据库和数据集合有很大不同。所以，我们首要任务要得到话题源，也就是从互联网上爬取相关的页面话题，然后进行处理，整理并过滤掉垃圾信息，为后面挖掘所感兴趣的知识提供基础数据支持，这个过程我们称之为话题爬虫。挖掘话题的实现是通过建立索引、分类话题以及检索话题来完成的。系统调用目前比较完善的全文检索系统Lucene所提供的应用程序相关接口，分析相应话题，构建索引，实现了通过。

著录项

作者
王甲坤;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机应用技术
授予学位硕士
导师姓名刘乃琦;
年度 2011
页码
总页数
原文格式 PDF
正文语种 chi
中图分类 TP393.09;
关键词
话题爬虫; 全文检索; 文本挖掘; 互联网技术;

相似文献

中文文献
外文文献
专利

1. TDT中新发现话题的分类研究与实现 [J] . 龙志祎 ,程葳 ,沈俊辉 . 武汉理工大学学报（信息与管理工程版） . 2009,第005期
2. 基于分类的中文微博热点话题发现方法研究 [J] . 郑飞 ,张蕾 . 信息网络安全 . 2014,第009期
3. 基于移动互联网的高职智慧校园热议话题发现系统设计与实现研究 [J] . 刘承良 . 信息与电脑 . 2017,第022期
4. 基于DK算法的互联网热点主动发现研究与实现 [J] . 李若鹏 ,李翔 ,林祥 . 计算机技术与发展 . 2008,第009期
5. 一种基于文本先分类再聚类的互联网热点信息发现方法 [J] . 张慷 . 兰州工业学院学报 . 2013,第003期
6. 敏感话题发现中的增量型文本聚类模型 [C] . ZHANG Yue-jin ,-张越今 ,DING Ding . 第30次全国计算机安全学术交流会 . 2015
7. 基于互联网数据的话题发现及追踪技术研究与实现 [A] . 刘旭 . 2010

基于互联网的话题分类及敏感话题发现技术研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅