首页> 外文会议>ACM/IEEE-CS joint conference on Digital libraries >Toward a distributed terabyte text retrieval system in China-US million book digital library
【24h】

Toward a distributed terabyte text retrieval system in China-US million book digital library

机译:建立中美百万图书数字图书馆中的分布式TB文本检索系统

获取原文

摘要

In China-US Million Book Digital Library, output of the digitalization process is more than one terabyte of text in OEB and PDF format. To access these data quickly and accurately, we are developing a distributed terabyte text retrieval system. With the query cache, system can search less data while maintaining acceptable retrieval accuracy. From the OEB package, we get its metadata and structural information to implement multi-scale indexing and retrieval. We are to explore some new retrieval models and text clustering approaches in the Digital Library.
机译:在中美“百万图书数字图书馆”中,数字化过程的输出是OEB和PDF格式的超过1 TB的文本。为了快速,准确地访问这些数据,我们正在开发一个分布式TB文本检索系统。使用查询缓存,系统可以搜索更少的数据,同时保持可接受的检索精度。从OEB软件包中,我们获得其元数据和结构信息,以实现多尺度索引和检索。我们将在数字图书馆中探索一些新的检索模型和文本聚类方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号