首页> 中文期刊>信息技术 >面向期刊论文的搜索技术的研究与设计

面向期刊论文的搜索技术的研究与设计

     

摘要

为了解决期刊论文的大量存储、PDF文本解析、无法快速准确搜索等问题,文章首先使用HDFS分布式系统存储大量期刊论文,其次采用PDF抽取技术将非纯文本格式的PDF期刊转换为纯文本格式,然后分析比较主流中文分词器,最后采用倒排索引、分布式索引和优化相关度排序算法等,分析并设计了一个面向期刊论文的搜索引擎.实验结果表明,本文有效的解决大量论文的存储和访问,缩短建立索引时间,提高了搜索结果的准确性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号