文本检索
文本检索的相关文献在1988年到2022年内共计284篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播
等领域,其中期刊论文119篇、会议论文21篇、专利文献36154篇;相关期刊84种,包括情报理论与实践、情报学报、现代图书情报技术等;
相关会议21种,包括第四届中国古籍数字化国际学术研讨会、第十二届中国虚拟现实大会、2008年数字环境下的图书馆文献资源建设——挑战与对策研讨会等;文本检索的相关文献由607位作者贡献,包括黄名选、戴威、刘占亮等。
文本检索—发文量
专利文献>
论文:36154篇
占比:99.61%
总计:36294篇
文本检索
-研究学者
- 黄名选
- 戴威
- 刘占亮
- 张霞
- 窦志成
- 郑倩
- 钱泓锦
- 佐藤胜彦
- 史庆伟
- 吕学强
- 吴立德
- 杨敏
- 杨阳
- 江岭
- 王丹
- 王斌
- 贺倩明
- 郭湘
- 黄丽娟
- 黄萱菁
- 黄鹏
- 丁贵广
- 严妍
- 乔宝琛
- 于崇兰
- 仲如星
- 何艳敏
- 俞勇
- 冯继民
- 刘宜轩
- 刘家俊
- 刘甲甲
- 刘绍明
- 叶俊锋
- 吕晓雨
- 吴宗大
- 吴飞
- 夏国恩
- 夏迎炬
- 姚永芳
- 孙茂松
- 孙莹
- 宗萍
- 崔朝辉
- 常永炷
- 廖勤耘
- 张世征
- 张宇
- 张志锋
- 张映海
-
-
周献杭;
申妍燕
-
-
摘要:
随着法律文书数据越来越多,信息过载问题日益严重,快速且准确地在海量法律文书中进行检索显得非常必要。法律文本作为一种特殊的文本形式,具有篇幅较长、结构复杂、专业性强等特点,传统基于关键字的文本检索方法不能满足用户查询法律信息的需求,容易出现答非所问、检索不全等问题。此外,基于语义的文本检索方法,大多依赖于对含有大量标注数据的法律文本进行有监督学习,而法律文本数据的人工标注则严重依赖专家知识,导致其需要高昂的人力成本。该文提出一种基于无监督学习的法律文书检索模型,分别从法律概念、词语和词组3个方面进行多粒度无监督文本匹配,避免了没有训练数据导致的冷启动问题。在法律裁判文书数据集上进行检索实验的结果表明,与基准模型相比,该模型在MAP、MRR和NDCG@10指标上均有显著提升,取得了优秀的检索效果,具有有效性和先进性。
-
-
付薇薇;
王东娟;
张顺
-
-
摘要:
为构建一种能够准确有效地在医保问题库中检索到与用户提出的问题匹配度最高的问题,提出了一种融合逻辑回归分类模型和TextRank关键词抽取的文本快速检索方法。首先从医保局官网以及百度文库中收集医保问答对,根据医保问答数据特征,采用对比分析方法找到最优的文本检索方案。实验结果表明,逻辑回归分类模型速度更快、准确度更高,配合基于图排序的关键词检索方式TextRank,能够有效地检索到与用户问题匹配度最高的医保问题。
-
-
于家畦;
康晓东;
白程程;
刘汉卿
-
-
摘要:
电子病历的增长构成用户健康大数据的基础,可提高医疗服务质量并降低医疗成本,因此迅速有效地检索病例在临床医学中具有实际意义。电子病历具有极强的专业性和独特的文本特点,然而传统的文本检索方法存在文本实体语义表达不准确、检索精度较低的不足。针对以上特点及问题,提出一种融合BERT-BiLSTM模型结构,以充分表达电子病历文本语义信息,提高检索的准确率。依据公开数据,首先,将公开的标准中文电子病历数据按临床诊断规则做关联扩展检索主题词预处理;其次,利用BERT模型,根据病历文本的上下文语境动态获取字粒度向量矩阵,再将生成的字向量作为双向长短时记忆网络模型(BiLSTM)的输入,以提取上下文信息的全局语义特征;最后,将检索文档的特征向量映射到欧氏空间中,找出与检索文档距离最近的病历文本,实现非结构化临床数据文本检索。仿真结果表明,该方法能够从病历文本中挖掘出多层次、多角度的文本语义特征,在电子病历数据集上取得的F1值为0.94,能显著提高文本语义检索准确率。
-
-
董事;
杨东;
胡丹;
杨军
-
-
摘要:
哈希函数在计算机科学领域和密码学领域广泛应用。在计算机科学领域,它将关键字的集合映射到地址集合,实现记录的管理和快速查找。虽然哈希函数在查找上表现良好,但是在文本检索领域应用却很少,因此提出一种基于二叉树结构的哈希函数。首先,该方法对文本文件采用首字Hash法进行一次粗检索,对粗检索结果集采用二叉树哈希结构详细检索。其次,将此二叉树结构构建的哈希函数应用在文本检索领域,并将查找领域的优势应用于文件检索。最后,该方法被应用于不同的文本文件进行试验,并将试验结果与快速排序查找算法、二叉树查找算法进行对比。实验结果表明,二叉树哈希函数方法在文本检索表现上优于另外两种算法。
-
-
陈彬;
黄丽娟
-
-
摘要:
大数据环境下的数据增强能有效地扩充数据样本的规模,数据的规模如果越大、质量就越来越好,模型有着更好更高的泛化能力.基于深层的神经网络的文本情感的检索分析的算法的损失函数的优化可以提高模型的泛化能力,减少过度拟合,提高了基于语义的文本情感倾向分析的检索方法的精确度,显著减少了丢失率,避免了过度拟合.
-
-
龙小龙
-
-
摘要:
为了提高跨境民族文化文本检索的精度,提出一种方法——融入文档词权重的跨境民族文化文本检索方法(Cross-Border Ethnic Cultural Text Retrieval Method Incorporating Document word Weight,CETR).该方法在输入端对查询词和文档词通过Bi-LSTM进行初步特征提取,在形成交互矩阵时融入文档词权重,利用CNN提取交互矩阵上的特征,得到基本的关联信号.通过Max-pooling提取最强的关联信号,并投影到多层感知器神经网络中,最终获得查询与文档的匹配得分.实验结果表明,对比精度最高的通用模型,CETR模型NDCG@10提高了约9.7%,P@1提高了约8.9%,MAP提高了约9.8%.由此说明该模型在面向跨境民族文化领域的检索任务上效果更好.
-
-
黄丽娟
-
-
摘要:
本文运用深层神经网络针对基于语义的文本情感倾向分析方法实行了探究.通过改良策略和模式布局的设想,提出了两种情感倾向的检索布局,以便得到最佳的检索效益.实验说明,BO-BI-LSTM和BO-CNN神经网络语言模式在一定意义上提升了基于语义的文本情感倾向分析的采集方法的精确度,丢失率明显降低,预防了极度吻合.
-
-
刘宇松
-
-
摘要:
一种改进聚类分布式索引的新方法,以便使用线程进行高效的文本检索.在文本检索中,文本搜索指的是搜索存储的文本的技术文档或数据库.在全文搜索中,搜索引擎会检查每个存储库中的所有单词文档,因为它试图匹配用户提供的搜索词.当处理少量的文档,全文搜索引擎执行串行扫描,直接扫描文档的内容每个查询都包含一个文档.当要搜索的文档数量可能很大或数量要执行的搜索查询数量很大,全文搜索问题通常分为两个任务,即,索引和搜索.索引阶段扫描所有文档的文本,并构建文档列表搜索词,通常称为索引.在搜索阶段,当执行特定查询时,只有索引被引用,而不是原始文档的文本.综上所述,本文旨在通过对索引进行聚类,提高索引的搜索时间.
-
-
-
黄丽娟
-
-
摘要:
本文针对目前文本检索的准确性、实用性、提取等问题,构造一个检索模型BO-BI-LSTM对文本的提取,再利用语义分析进行挖掘,实验表明对文本挖掘提高了,这种模型在应用中有很大的实用性。
-
-
陈忆群;
曹瑾音;
印鉴
- 《第二十三届中国数据库学术会议(NDBC2006)》
| 2006年
-
摘要:
在企业信息系统中隐藏着大量结构化、半结构化及非结构化存储的文本信息还没得到有效利用.结构化存储的文本信息隐藏于关系数据库内部,而传统关系数据库管理平台文本信息检索功能有限. 自然语言中存在的一词多义和多词同义现象给文本检索增加了难度,由此提出了查询扩展技术提高检索结果文档数,及文档的相关度. 本文设计了一个服务于关系数据库平台的信息检索系统,具备通用性、灵活性和可扩展性,解决信息系统内部大量结构化文本的信息查询问题,并提供信息查询智能扩展.为了适应关系数据库中的信息检索的特点及需求,我们设计出一种综合了传统信息检索技术,信息抽取技术以及查询扩展技术的解决方案:设计了智能索引结构,对用户输入的查询设计了语义分析方法,借助词典工具对单词语义做同义词扩展,最后对检索出来的元组信息利用其与其他元组的关联关系形成完整的"文档信息"。
-
-
-
-
蒋红;
梁久祯
- 《第六届中国Rough集与软计算学术研讨会(CRSSC'2006)》
| 2006年
-
摘要:
通过对文本集的词-文档矩阵进行奇异值分解(SinguIar Value Decomposition,SVD),提取K-秩近似矩阵近似表征原词-文档矩阵,左右奇异向量分别为词向量和文档向量,在此基础上进行文本分类和其它各档处理,这就是隐含语义索引技术.本文对此问题进行了研究.该文利用查询向量和各文本向量之间的夹角余弦表示相似程度,寻找和用户查询最相似的文档集合,并按相似度的高低排列,将相似度大于用户预先设定的阈值的文档返回给用户。
-
-
张晗
- 《第九次全国中西医结合信息学术交流会》
| 2018年
-
摘要:
Resources for biomedical text Mining:Corpora、Knowledge Sources、Supporting Tools.Information Extraction.Biomedical text mining tasks.Biomedical text mining applications.Extract structured facts from unstructured or semi-structured text.Identify biological or medical terms.Determine relationships among the entities.Identify complex,nested event structures.Concepts and Semantic relations extracted.Extract SemRep predications;represent as a graph.Calculate degree centrality for each node.Keep predications where both arguments have degree centrality above cutoff.
-
-
张晗
- 《第九次全国中西医结合信息学术交流会》
| 2018年
-
摘要:
Resources for biomedical text Mining:Corpora、Knowledge Sources、Supporting Tools.Information Extraction.Biomedical text mining tasks.Biomedical text mining applications.Extract structured facts from unstructured or semi-structured text.Identify biological or medical terms.Determine relationships among the entities.Identify complex,nested event structures.Concepts and Semantic relations extracted.Extract SemRep predications;represent as a graph.Calculate degree centrality for each node.Keep predications where both arguments have degree centrality above cutoff.
-
-
张晗
- 《第九次全国中西医结合信息学术交流会》
| 2018年
-
摘要:
Resources for biomedical text Mining:Corpora、Knowledge Sources、Supporting Tools.Information Extraction.Biomedical text mining tasks.Biomedical text mining applications.Extract structured facts from unstructured or semi-structured text.Identify biological or medical terms.Determine relationships among the entities.Identify complex,nested event structures.Concepts and Semantic relations extracted.Extract SemRep predications;represent as a graph.Calculate degree centrality for each node.Keep predications where both arguments have degree centrality above cutoff.
-
-
张晗
- 《第九次全国中西医结合信息学术交流会》
| 2018年
-
摘要:
Resources for biomedical text Mining:Corpora、Knowledge Sources、Supporting Tools.Information Extraction.Biomedical text mining tasks.Biomedical text mining applications.Extract structured facts from unstructured or semi-structured text.Identify biological or medical terms.Determine relationships among the entities.Identify complex,nested event structures.Concepts and Semantic relations extracted.Extract SemRep predications;represent as a graph.Calculate degree centrality for each node.Keep predications where both arguments have degree centrality above cutoff.
-
-
白维国
- 《第四届中国古籍数字化国际学术研讨会》
| 2013年
-
摘要:
这里所说的引证超前,是指历时辞书某义项下所引的例证时代超前于该意义出现的时代,在其所引书证的时代该项意义还没有出现.学术界有一句行话:"说有易,说无难."指出历时辞书引例滞后是"说有"的事,只要发现有例证早于该辞书所引例证的时代,就可以证明其所引例证滞后.而指出其引证超前是"说无"的事,需要在较大的资料范围内进行比对,才能发现在它所引书证的时代该义项还没有出现,利用《国学宝典》、《四库全书》两种较大型的电子语料检索系统,在超过十亿字次的历时语料范围内进行近于穷尽式的检索,发现某些历时辞书的词条有引证超前的现象.兹引例讨论之.
-
-
白维国
- 《第四届中国古籍数字化国际学术研讨会》
| 2013年
-
摘要:
这里所说的引证超前,是指历时辞书某义项下所引的例证时代超前于该意义出现的时代,在其所引书证的时代该项意义还没有出现.学术界有一句行话:"说有易,说无难."指出历时辞书引例滞后是"说有"的事,只要发现有例证早于该辞书所引例证的时代,就可以证明其所引例证滞后.而指出其引证超前是"说无"的事,需要在较大的资料范围内进行比对,才能发现在它所引书证的时代该义项还没有出现,利用《国学宝典》、《四库全书》两种较大型的电子语料检索系统,在超过十亿字次的历时语料范围内进行近于穷尽式的检索,发现某些历时辞书的词条有引证超前的现象.兹引例讨论之.