您现在的位置: 首页> 研究主题> 文本检索

文本检索

文本检索的相关文献在1988年到2022年内共计284篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播 等领域,其中期刊论文119篇、会议论文21篇、专利文献36154篇;相关期刊84种,包括情报理论与实践、情报学报、现代图书情报技术等; 相关会议21种,包括第四届中国古籍数字化国际学术研讨会、第十二届中国虚拟现实大会、2008年数字环境下的图书馆文献资源建设——挑战与对策研讨会等;文本检索的相关文献由607位作者贡献,包括黄名选、戴威、刘占亮等。

文本检索—发文量

期刊论文>

论文:119 占比:0.33%

会议论文>

论文:21 占比:0.06%

专利文献>

论文:36154 占比:99.61%

总计:36294篇

文本检索—发文趋势图

文本检索

-研究学者

  • 黄名选
  • 戴威
  • 刘占亮
  • 张霞
  • 窦志成
  • 郑倩
  • 钱泓锦
  • 佐藤胜彦
  • 史庆伟
  • 吕学强
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 周献杭; 申妍燕
    • 摘要: 随着法律文书数据越来越多,信息过载问题日益严重,快速且准确地在海量法律文书中进行检索显得非常必要。法律文本作为一种特殊的文本形式,具有篇幅较长、结构复杂、专业性强等特点,传统基于关键字的文本检索方法不能满足用户查询法律信息的需求,容易出现答非所问、检索不全等问题。此外,基于语义的文本检索方法,大多依赖于对含有大量标注数据的法律文本进行有监督学习,而法律文本数据的人工标注则严重依赖专家知识,导致其需要高昂的人力成本。该文提出一种基于无监督学习的法律文书检索模型,分别从法律概念、词语和词组3个方面进行多粒度无监督文本匹配,避免了没有训练数据导致的冷启动问题。在法律裁判文书数据集上进行检索实验的结果表明,与基准模型相比,该模型在MAP、MRR和NDCG@10指标上均有显著提升,取得了优秀的检索效果,具有有效性和先进性。
    • 付薇薇; 王东娟; 张顺
    • 摘要: 为构建一种能够准确有效地在医保问题库中检索到与用户提出的问题匹配度最高的问题,提出了一种融合逻辑回归分类模型和TextRank关键词抽取的文本快速检索方法。首先从医保局官网以及百度文库中收集医保问答对,根据医保问答数据特征,采用对比分析方法找到最优的文本检索方案。实验结果表明,逻辑回归分类模型速度更快、准确度更高,配合基于图排序的关键词检索方式TextRank,能够有效地检索到与用户问题匹配度最高的医保问题。
    • 于家畦; 康晓东; 白程程; 刘汉卿
    • 摘要: 电子病历的增长构成用户健康大数据的基础,可提高医疗服务质量并降低医疗成本,因此迅速有效地检索病例在临床医学中具有实际意义。电子病历具有极强的专业性和独特的文本特点,然而传统的文本检索方法存在文本实体语义表达不准确、检索精度较低的不足。针对以上特点及问题,提出一种融合BERT-BiLSTM模型结构,以充分表达电子病历文本语义信息,提高检索的准确率。依据公开数据,首先,将公开的标准中文电子病历数据按临床诊断规则做关联扩展检索主题词预处理;其次,利用BERT模型,根据病历文本的上下文语境动态获取字粒度向量矩阵,再将生成的字向量作为双向长短时记忆网络模型(BiLSTM)的输入,以提取上下文信息的全局语义特征;最后,将检索文档的特征向量映射到欧氏空间中,找出与检索文档距离最近的病历文本,实现非结构化临床数据文本检索。仿真结果表明,该方法能够从病历文本中挖掘出多层次、多角度的文本语义特征,在电子病历数据集上取得的F1值为0.94,能显著提高文本语义检索准确率。
    • 董事; 杨东; 胡丹; 杨军
    • 摘要: 哈希函数在计算机科学领域和密码学领域广泛应用。在计算机科学领域,它将关键字的集合映射到地址集合,实现记录的管理和快速查找。虽然哈希函数在查找上表现良好,但是在文本检索领域应用却很少,因此提出一种基于二叉树结构的哈希函数。首先,该方法对文本文件采用首字Hash法进行一次粗检索,对粗检索结果集采用二叉树哈希结构详细检索。其次,将此二叉树结构构建的哈希函数应用在文本检索领域,并将查找领域的优势应用于文件检索。最后,该方法被应用于不同的文本文件进行试验,并将试验结果与快速排序查找算法、二叉树查找算法进行对比。实验结果表明,二叉树哈希函数方法在文本检索表现上优于另外两种算法。
    • 陈彬; 黄丽娟
    • 摘要: 大数据环境下的数据增强能有效地扩充数据样本的规模,数据的规模如果越大、质量就越来越好,模型有着更好更高的泛化能力.基于深层的神经网络的文本情感的检索分析的算法的损失函数的优化可以提高模型的泛化能力,减少过度拟合,提高了基于语义的文本情感倾向分析的检索方法的精确度,显著减少了丢失率,避免了过度拟合.
    • 龙小龙
    • 摘要: 为了提高跨境民族文化文本检索的精度,提出一种方法——融入文档词权重的跨境民族文化文本检索方法(Cross-Border Ethnic Cultural Text Retrieval Method Incorporating Document word Weight,CETR).该方法在输入端对查询词和文档词通过Bi-LSTM进行初步特征提取,在形成交互矩阵时融入文档词权重,利用CNN提取交互矩阵上的特征,得到基本的关联信号.通过Max-pooling提取最强的关联信号,并投影到多层感知器神经网络中,最终获得查询与文档的匹配得分.实验结果表明,对比精度最高的通用模型,CETR模型NDCG@10提高了约9.7%,P@1提高了约8.9%,MAP提高了约9.8%.由此说明该模型在面向跨境民族文化领域的检索任务上效果更好.
    • 黄丽娟
    • 摘要: 本文运用深层神经网络针对基于语义的文本情感倾向分析方法实行了探究.通过改良策略和模式布局的设想,提出了两种情感倾向的检索布局,以便得到最佳的检索效益.实验说明,BO-BI-LSTM和BO-CNN神经网络语言模式在一定意义上提升了基于语义的文本情感倾向分析的采集方法的精确度,丢失率明显降低,预防了极度吻合.
    • 刘宇松
    • 摘要: 一种改进聚类分布式索引的新方法,以便使用线程进行高效的文本检索.在文本检索中,文本搜索指的是搜索存储的文本的技术文档或数据库.在全文搜索中,搜索引擎会检查每个存储库中的所有单词文档,因为它试图匹配用户提供的搜索词.当处理少量的文档,全文搜索引擎执行串行扫描,直接扫描文档的内容每个查询都包含一个文档.当要搜索的文档数量可能很大或数量要执行的搜索查询数量很大,全文搜索问题通常分为两个任务,即,索引和搜索.索引阶段扫描所有文档的文本,并构建文档列表搜索词,通常称为索引.在搜索阶段,当执行特定查询时,只有索引被引用,而不是原始文档的文本.综上所述,本文旨在通过对索引进行聚类,提高索引的搜索时间.
    • 黄丽娟
    • 摘要: 本文针对目前文本检索的准确性、实用性、提取等问题,构造一个检索模型BO-BI-LSTM对文本的提取,再利用语义分析进行挖掘,实验表明对文本挖掘提高了,这种模型在应用中有很大的实用性。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号