首页> 中文期刊> 《情报理论与实践》 >基于后缀树聚类的主题搜索引擎研究

基于后缀树聚类的主题搜索引擎研究

         

摘要

[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求.[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过STC算法对检索结果实时聚类.[结果/结论]以“图书情报”为主题进行实验测试,每增加一个分布式计算节点爬取速率提高20%,查准率优于未排序优化23%,检索结果可以实时聚类并以可视化展示,且检索结果项多为相关论文.[局限]系统对网页中繁多的数据格式解析度不够,未解析的部分可能包含主题内容.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号