倒排索引
倒排索引的相关文献在1984年到2022年内共计381篇,主要集中在自动化技术、计算机技术、科学、科学研究、无线电电子学、电信技术
等领域,其中期刊论文252篇、会议论文18篇、专利文献7012篇;相关期刊141种,包括情报杂志、通信学报、电脑知识与技术等;
相关会议17种,包括2015中国计算机网络安全年会、中国计算机用户协会网络应用分会2011年第十五届网络新技术与应用年会、江苏省电子学会2010年学术年会等;倒排索引的相关文献由885位作者贡献,包括曾珂、王刚、福岛俊一等。
倒排索引
-研究学者
- 曾珂
- 王刚
- 福岛俊一
- 维尼拉·木沙江
- 刘晓光
- 张帅
- 陈岭
- 姜琨
- 田野
- 陈燕红
- 刘健
- 单栋栋
- 卫冰洁
- 史亮
- 吐尔洪·吾司曼
- 吴迪
- 周斌
- 孙建伶
- 孙茂
- 张太红
- 张帆
- 敖耐勇
- 时亚南
- 李宝娟
- 杨岳湘
- 杨庚
- 林青
- 王习特
- 王斌
- 白梅
- 蔡青林
- 许浩
- 黄玉蕾
- 于俊清
- 于戈
- 付云峰
- 代喆
- 何云峰
- 倪超
- 刘小珠
- 刘汀
- 刘金刚
- 单大甫
- 史旅华
- 史晓东
- 吉浩宇
- 吐尔地·托合提
- 吕兆龙
- 吴健
- 吴泉源
-
-
薛玉洁;
陈兰香;
穆怡
-
-
摘要:
为了实现基于语义的密文检索,提高密文检索的准确率和效率,本文提出了一种基于biterm主题模型(biterm topic model,BTM)的多关键词可排序对称可搜索加密方案(BTM-MRSE).通过主题模型对关键词和文档之间的潜在语义进行建模,用户利用查询关键词的概率分布作为检索陷门,根据查询关键词与文档之间的语义相关性得分来获得最相关的文档.本方案将密文检索中的特定关键词替换为基于语义的主题,实现了关键词和文档标识符的分离,从而增强了文档关键词与查询关键词的隐私保护.为了减小索引规模,我们提出两层索引结构,利用平衡二叉树构造关键词-主题安全索引,结合倒排索引构造主题-文档安全索引.一方面,主题模型减小了索引节点中向量的维数,从而提高了检索效率,同时基于平衡二叉树的二级索引机制也进一步改善了密文检索效率.安全性分析证明了所提方案是安全有效的,同时利用真实数据集进行实验对比,表明本方案的密文检索准确率和效率都有极大提升.
-
-
陈欢
-
-
摘要:
针对现存密文搜索方案大多不支持对索引动态更新以及无法对搜索后文件进行排名的问题,提出了一种支持动态更新的可排名密文搜索方案(Ranking ciphertext searchable scheme supporting dynamic update, RCSD),利用Paillier加密以及倒排索引等关键技术,实现了在密文搜索的同时,对关键字索引进行动态更新,大大提升索引更新效率。本方案能够根据关键字的重要性对搜索后的文件进行排序,满足用户的需求。实验分析表明,该方案具有轻量的搜索效率与索引更新效率,压缩了索引存储空间,当关键字集合较多时,存储优势格外明显。
-
-
白梅;
苌仕涵;
王习特
-
-
摘要:
基于位置的路网Skyline查询可根据用户的需求及用户所处的位置,从大量数据中快速返回给用户期望的数据,但已有的道路网络技术需要计算大量的路网距离及数据点间支配关系的运算,导致查询效率较低。提出一种基于路网数据点的倒排索引查询算法DSR。通过计算少量数据点的路网距离求得最终结果,减小路网距离计算的代价,从而加快数据点间支配关系的判定,提升查询效率。在此基础上,在数据点更新情况下给出算法的动态维护,仅通过维护少量数据,DSR即可以快速地计算出Skyline集合。实验结果表明,与SSI、BSS等算法相比,该算法具有较高的查询效率,且时间性能明显提升。
-
-
杨立鹏;
廉文彬;
季续国;
李雯;
陈华龙
-
-
摘要:
随着人工智能应用的普及,与生活相关的各种服务都在向着智能化发展,铁路客服作为旅客业务咨询的重要窗口,高效的服务能够带给旅客更优的体验。为了能够方便旅客咨询出行相关的问题,铁路12306开通了在线咨询服务。12306在线咨询服务的应答能力主要依赖于问题的检索能力,能够高效、准确地检索旅客咨询的问题是提升在线客服服务的关键。因此该文利用倒排索引技术和LSTM孪生网络提出了一种新的检索方法,首先利用倒排索引技术进行文本的预处理,可以极大地提高检索的效率;然后基于LSTM孪生网络和注意力机制构建了AT_LSTM模型用于计算问题的相似度,并且与基于HowNet和基于词向量余弦距离的相似度算法进行了对比。实验结果表明,该检索优化方法相比HowNet和Consine+word2vec准确率都有较大的提升。智能应答检索能力的优化,提升了客运的在线咨询服务能力,铁路客运可以更好地服务旅客。
-
-
徐坤浩;
聂铁铮;
申德荣;
寇月;
于戈
-
-
摘要:
相似性连接技术在数据清洗、数据集成等领域中具有重要意义,近年来引起了学术界的广泛关注.随着数据量的不断增大、数据处理实时性的要求逐渐提高以及处理器性能提升瓶颈的出现,传统的串行相似性连接方法已经不能满足当前大数据处理的需求.近些年,GPU作为协处理器在机器学习等领域取得了良好的加速效果,因此基于GPU的并行算法开始成为解决各类性能问题的有效解决方案.为此,提出了基于CPU-GPU异构体系的并行相似性连接方法.首先,方法使用GPU构建倒排索引,索引采用SoA(struct of arrays)结构,从而解决了传统索引结构在并行模式下读写效率低的问题.其次,针对串行算法的性能问题,提出基于过滤验证框架的并行双重长度过滤算法,其中利用前缀过滤和构建好的倒排索引提升过滤效果.方法中相似度精确计算验证过程使用CPU计算执行,从而充分利用CPU-GPU 的异构计算资源.最后,在多个数据集上进行实验验证性能.通过与串行相似性连接算法进行对比,实验结果表明所提出方法相对于已有方法具有更好的过滤效果和更低的索引生成代价,并在相似性连接上具有更好的性能和良好的加速比.
-
-
姜琨;
刘征;
朱磊;
李晓星
-
-
摘要:
在搜索引擎的倒排索引等字长(FWA)类型压缩算法中,倒排链的"贪心"分块划分策略和码字信息的交错存储使算法难以达到最优的压缩效果.针对上述问题,提出了一种基于有向无环图(DAG)的FWA划分压缩算法.首先,考虑到互联网网页聚类特性带来的倒排链小数字信息,设计了一种数据区为64位分块的新型FWA压缩格式.该压缩格式通过4位的指示区将数据区划分为16种适合于连续小数字压缩的存储模式,并将倒排链每个分块的指示位和数据位分类存储,从而保证了较好的批量解压性能.其次,在新压缩格式的基础上提出一种基于DAG描述的倒排链FWA划分压缩方法——固定字对齐划分(WAP)算法.该算法利用DAG将倒排链分块划分问题归结为单源最短路径(SSSP)问题,并考虑FWA压缩格式中数据区存储模式的限制条件来确定SSSP问题的结构形式和递归定义.然后,给出了采用动态规划求解SSSP问题并形成最优划分向量的伪码和算法复杂度,并对S9、S16、S8b等传统FWA算法的原有存储模式进行了基于DAG的划分优化,把优化前后的算法的计算复杂度进行比较分析.最后,使用仿真整数序列数据和文本检索会议(TREC)GOV2网页索引数据进行压缩性能实验.实验结果表明,相较于传统FWA类型算法,基于DAG的FWA划分算法在通过批量解压和划分优化技术提升算法的压缩率和解压速度同时,对连续小数字整数序列进行压缩时能够获得比传统参照框架(FOR)类型算法更高的压缩率.
-
-
王莱;
周腾达;
王正飞;
洪佳明
-
-
摘要:
电子病历包含病人的隐私信息,如何在保密情况下进行电子病历内容搜索是医院电子病历数据有效利用的难点.针对电子病历密文搜索,提出一种基于布隆过滤器(BF)和B+树的快速搜索方法.该技术对电子病历建立BF,按照倒排索引方式组织起来并建立B+树,能够支持在不泄露用户搜索关键词的前提下,对电子病历密文直接进行查询,安全级别达到IND-CKA级别.实验结果表明:由于使用BF与B+树结构,空间过滤特性高,无须解密即可达99%的过滤效率,查询效率高,且支持布尔查询,有效促进加密电子病历数据的应用.
-
-
陈宁江;
刘灿;
黄汝维;
黄保华
-
-
摘要:
随着云计算的发展,以密文检索为核心的安全和搜索性能问题成为研究的重点.在传统的加密方案中,大多只解决了抵御外部关键字猜测攻击问题,往往忽视了诚实且好奇的云服务器问题.为了提高密文安全性,该文提出快速搜索的抵御内部关键字攻击方案.首先,引入高效的加密倒排索引结构的公钥密文搜索方案,实现关键字的并行搜索任务.其次,在构建密文倒排索引时加入数据拥有者的私钥抵御恶意云服务器的关键字攻击.与传统的公钥可搜索加密相比,该方案在很大程度上增强了搜索系统的安全性和搜索效率.
-
-
程彪;
张晓明;
阮晨
-
-
摘要:
基于Elasticsearch中文数据搜索机制搭建3个节点和4个索引的ES集群,构建倒排索引并配置自定义医学分词词典,将检验知识库数据、检查知识库数据和药品知识库数据通过程序分别导入ES索引"inspection"、"examine"和"drug",将出院记录数据通过接口导入ES索引"medicalrecord",开发基于Python+Django框架的web应用系统,构建临床知识库和病案检索服务平台.服务平台加强网络安全策略,对ES安全性进行强化配置,合理设计和分配存储分片的大小,保证平台的安全性、可用性和冗余性.服务平台集成检验知识库检索、检查知识库检索、药品知识库检索以及病案检索等功能,解决临床医务人员在多系统之间切换检索的问题,提高临床工作效率.
-
-
赵鸿
-
-
摘要:
针对5G消息强交互的特点,研究设计一种以会话树为核心的5G消息交互系统.研究交互系统的框架设计,会话树及树节点的结构设计,进一步阐述会话引擎的实现过程.针对会话树节点信息的存储和检索过程,分析使用的倒排索引机制、关键词处理和相似度检索模型.为后续采用5G消息进行企业到个人交互的系统开发提供理论参考和依据.
-
-
-
叶进星
- 《2008年电力行业信息化年会》
| 2008年
-
摘要:
信息系统本身的运维管理越来越得到重视,基于GIS、3D、倒排索引等技术的基础信息生产管理系统将实际的机房物理环境进行虚拟现实三维模拟,同时将机房里的设备台账管理系统、事故分析系统、网管系统等数据统一在信息设备这类"元设备"上进行统一展现,消除了"信息孤岛".使用搜索引擎中的倒排索引等技术,将海量数据的处理变得易用快捷,提高了系统的可用性.
-
-
-
俞剑;
关佶红
- 《2009年全国开放式分布与并行计算学术年会》
| 2009年
-
摘要:
结构化对等(P2P)网络是基于文件标识符的分布武系统,它能够很好地支持对文件标识符的等值查询,但对于其他的复杂查询,则需要进行进一步扩展,现有的一些技术虽然在结构化对等网络实现了关键词搜索,但是仍然存在诸如负载不均衡,结构复杂,不易于部署和效率低等问题,对此提出了一种基于结构化对等网络的关键词搜索新方法,将构建在一般分布式哈希表上的倒排索引与top-k查询算法结合起来,以较少的代价实现关键词搜索.同时有效地克服了数据分布不均匀带来的负载不均衡问题.
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
网络查询分类对提高搜索引擎的搜索质量有重要的意义.本文通过真实用户查询日志的分析和标注,发现四种特征词(称之为"VASE"特征词)对查询分类起决定性作用.我们提取特征词并构造了一个特征词倒排索引,用于对查询进行主题分类.在此基础之上,提出了基于网络扩展和加权特征词的方法改善分类的效果.实验结果显示,基于此分类方法的正确率和召回率分别达到78.2%和77.3%.
-
-
- 《第二十五届中国数据库学术会议(NDBC2008)》
| 2008年
-
摘要:
基于Web 2.0的社区系统在互联网上的出现引出了全局表的概念(universal tables),并使得大规模稀疏数据表(large sparse table,LST)得到了广泛的应用。一个LST通常包括数千个以上的属性和百万条以上的记录,并且拥有大量的未定义值.而相似性查询是社区管理系统中最常见的查询.除了一种基于属性的倒排索引之外,目前针对LST的研究只集中在数据表的存储方法上.已有的倒排索引是与数据内容无关的,不能充分提高查询的效率。本文提出了新的与数据内容相关的索引方法。基于真实数据集上的实验表明本文方法在查询效率上显著优于现有的技术,并保证了更新的效率。
-
-
-
-