文本相似度
文本相似度的相关文献在2004年到2022年内共计555篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文308篇、会议论文13篇、专利文献169601篇;相关期刊177种,包括情报学报、现代图书情报技术、计算机工程等;
相关会议13种,包括中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第8届全国计算机支持的协同工作学术会议(CCSCW-2012)暨全国第23届计算机技术与应用学术会议(CACIS-2012)、中国医学科学院/北京协和医学院医学信息研究所/图书馆2010年学术年会等;文本相似度的相关文献由1297位作者贡献,包括徐乐乐、金平艳、刘晓葳等。
文本相似度—发文量
专利文献>
论文:169601篇
占比:99.81%
总计:169922篇
文本相似度
-研究学者
- 徐乐乐
- 金平艳
- 刘晓葳
- 刘粉香
- 娄东方
- 安毫亿
- 嵇望
- 朱鹏飞
- 李稀敏
- 林金曙
- 梁青
- 王伟凯
- 王炯亮
- 肖龙源
- 蔡振华
- 谭玉坤
- 陈志鹏
- 陈文亮
- 何径舟
- 冯仕堃
- 冯鑫
- 崔朝辉
- 张涛
- 张霞
- 张韶峰
- 徐亮
- 杨威
- 段莹
- 汤庸
- 汪伟
- 王志刚
- 王文皓
- 王楠
- 王涛
- 程刚
- 蒋志燕
- 赵立军
- 赵耕弘
- 辛如意
- 邹辉
- 郑丹丹
- CHEN Wenliang
- CHEN Zhipeng
- Deng Xing-wen
- Wu Qing-bin
- 严李强
- 付钊
- 仲丽君
- 任佳伟
- 任延昭
-
-
周自强;
王文浩;
李政翰;
姜久超
-
-
摘要:
为了提高备品备件管理的效率,将文本相似度算法如余弦相似度、TF-IDF相似度算法应用于备品备件管理中,通过将文本映射成空间向量后对向量进行运算,将文字比较转换为数值比较,实现了相似备件识别、同类型备件分类以及备件检索功能,为备品备件管理提供了新思路。
-
-
陶磊;
苏晨阳;
李正丹;
朱静雯;
张玉志
-
-
摘要:
【目的】整合多种教学资源,并在此场景下设计和实现一种高效准确的搜索策略,帮助用户获取丰富的教学内容。【应用背景】教学资源类型众多,数量庞大,用户对于准确检索的需求日益增长,仅基于ElasticSearch进行搜索的效果不尽人意。【方法】在对用户输入的Query进行预处理和分词后,通过ER-BERT语义相似度模型在Query库中匹配出n条近似结果,将其输入到ElasticSearch并构建相关度计算公式,最后按照综合评估的最终得分将匹配结果进行排序。【结果】利用知识图谱技术整合复杂的教学资源,并在此基础上实现了一种基于ElasticSearch和语义相似度匹配的教学资源搜索策略,在保证检索速度的同时可以根据用户检索Query的语义信息进行检索。【结论】实验结果表明使用该教学资源搜索策略增加了检索结果的数量,并在保证检索速度的同时提升了结果的准确性,显著改善了用户的搜索体验。
-
-
李星宇;
刘志勤;
王庆凤;
孟思齐
-
-
摘要:
目前,应急桌面演练系统已经有很多设计方案,但着力解决人工评估效率偏低、主观性较强等局限的方案较少。为此,提出一种基于自然语言处理的应急桌面演练系统设计,在构建有向无环图演练方案基础上,计算参演人员提出措施和标准措施的文本相似度,为过程评估和分支推理提供依据。
-
-
施元鹏;
单剑峰
-
-
摘要:
为了能够更好的帮助求职者选择合适的岗位信息,提出了基于文本相似度的简历匹配推荐算法。通过对简历和岗位信息进行特征提取及特征处理,将数据文本划分为两类。在结构化文本中,利用偏好权重因子α消除求职者与企业之间由于不同因素带来的相似度计算偏差。对于非结构化文本,利用机器学习模型doc2vec训练,并计算两者之间的相似度,提出修正参数χ来解决doc2vec缺乏考虑段落长度差异性的问题。实验结果表明,上述方法具有更高的准确率、召回率以及F1值。
-
-
肖灵云;
刘军库;
李春红
-
-
摘要:
针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法。利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分。将主观题试题作为实验数据集,用doc2vec算法进行评分,并采用方差及偏差率作为衡量标准,对基于doc2vec算法的评分结果进行验证,并与基于TextRank算法的主观题自动评分结果及人工评分进行对比,实验表明基于doc2vec算法的评分结果的方差及偏差率都较小,稳定性较好,为后期研究主观题评分有一定的参考意义。
-
-
李栋凯;
张永昌
-
-
摘要:
将textrank、word2vec和MMR3种语言模型用于基于文本相似度的新闻自动摘要提取。实验结果表明textrank算法得到的摘要语句可读性较差,理解困难;在textrank算法基础上增加word2vec模型后对整篇新闻的概括度较高,但却不能很好地解决信息冗余和效率低的问题;MMR可以有效去除信息冗余,体现语义的多样性。
-
-
黄孝武;
赵乾安
-
-
摘要:
利用人民银行《货币政策执行报告》文本分析数据,本研究从银行贷款损失准备计提的角度讨论了商业银行能否反应中央银行的货币政策立场变化。结果发现,银行贷款损失准备计提与报告中的货币政策立场宽松程度显著正相关。在宽松货币政策立场时,随着政策文本相似度上升,银行贷款损失准备计提的幅度会进一步上升。此外,报告中与货币相关的内容更受银行关注。这些结果表明商业银行能较好地反应央行沟通传递出的政策信号。本研究从文本分析的角度,为中国央行沟通预期管理效应的理论和实践提供了新的证据和思路。
-
-
张晟哲
-
-
摘要:
随着互联网时代的到来,移动视频市场迅速发展,相关媒体技术应运而生,从而出现了弹幕这种新兴的视频评论方式,并在许多在线视频网站得到应用。弹幕是典型的短文本,能够允许用户在观看视频时实时评论视频内容和表达自身情感,具有刺激用户互动、帮助后续观看者理解视频的功能。弹幕评论和传统视频评论共同覆盖了用户观看视频前后的全过程情感,对二者进行情感分析可以对视频内容质量进行相对全面的预估,能够弥补视频网站缺乏用户对视频评分的空缺。因此,本文提出一种基于双层情感分析的视频推荐算法,首先借助隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型筛选用户偏好的视频主题,其次通过对视频评论进行情感极性分析来对视频打分,最后利用视频弹幕计算待推荐视频与用户历史视频的情感相似度,生成视频推荐列表。实验表明,该方法能够充分利用弹幕和评论的情感信息,提升了视频推荐的准确率。
-
-
刘畅
-
-
摘要:
本文基于默认效应和信号理论,借助文本挖掘技术,从2009—2018年中国A股上市公司年报中提取管理层讨论与分析(MD&A)文本,构建企业年报MD&A纵向文本相似度指标,并研究纵向文本相似度是否有助于预测股票超额收益率。研究结果表明,企业年报MD&A同上一年的相似度与年报公布后的股票超额收益率显著正相关,即企业年报MD&A的纵向相似度越高,股票未来的超额收益率越高。进一步分析表明,在外界关注度高、信息披露质量高的上市公司,文本相似度与股票超额收益率之间的正向关系会减弱。本文的研究丰富了默认效应和信号理论在行为金融学领域的应用,为政府部门进行信息披露监管以及投资者进行风险投资评估提供了有益借鉴。
-
-
王成泽;
汪洋;
彭艳兵
-
-
摘要:
在数据对标等实际业务中,需要从大量数据表中找出相似的数据表,这时需要有经验的人工进行筛选,费时费力。基于能够自动化识别并推荐相似数据表的目的,采用了多种文本相似度算法自动识别并推荐相似表及表中相似字段的思路,从数据表名和数据项两方面综合考虑,对于中英文字段分别处理,并引入核心字段来推荐相似表中的相似字段项。通过与专家预设结果的比较,推荐准确率达到81%以上。
-
-
-
-
-
-
-
-
周学文;
郑玉玲
- 《第十一届全国民族语言文字信息学术研讨会》
| 2007年
-
摘要:
本文运用概率论原理和计算机编程手段,在《元朝秘史》电子版本的基础上,对原文中出现的大量相似的人名进行了统计、比较和考证,根据文本相似度原理和相似度模型,对相似人名按照不同相似度进行了分组并设定了相似度。本研究为《元朝秘史》传统的校勘和研究方法提供了一个新的、高效的辅助手段和实现机制。
-
-
Deng Xing-wen;
邓兴文;
Wu Qing-bin;
吴庆斌
- 《2016中华医院信息网络大会》
| 2016年
-
摘要:
中文地址分析技术在本地搜索服务已经得到广泛应用,其实其在医院管理特别是医院病人来源性分析、病案地址标准化上报也存在重要的作用.该技术就是把自然语言描述的地址转化成机器可识别可定位的信息.基于正则表达式匹配无语义的方法,识别效果较差,全文的最大相似度计算方法虽然效果好,但是需要占用大量的计算资源和完整的基础资料,而利用分词和基于命名实体识别的思想来对地址进行分析,使得整体效果有了明显改善.
-
-
Deng Xing-wen;
邓兴文;
Wu Qing-bin;
吴庆斌
- 《2016中华医院信息网络大会》
| 2016年
-
摘要:
中文地址分析技术在本地搜索服务已经得到广泛应用,其实其在医院管理特别是医院病人来源性分析、病案地址标准化上报也存在重要的作用.该技术就是把自然语言描述的地址转化成机器可识别可定位的信息.基于正则表达式匹配无语义的方法,识别效果较差,全文的最大相似度计算方法虽然效果好,但是需要占用大量的计算资源和完整的基础资料,而利用分词和基于命名实体识别的思想来对地址进行分析,使得整体效果有了明显改善.
-
-
Deng Xing-wen;
邓兴文;
Wu Qing-bin;
吴庆斌
- 《2016中华医院信息网络大会》
| 2016年
-
摘要:
中文地址分析技术在本地搜索服务已经得到广泛应用,其实其在医院管理特别是医院病人来源性分析、病案地址标准化上报也存在重要的作用.该技术就是把自然语言描述的地址转化成机器可识别可定位的信息.基于正则表达式匹配无语义的方法,识别效果较差,全文的最大相似度计算方法虽然效果好,但是需要占用大量的计算资源和完整的基础资料,而利用分词和基于命名实体识别的思想来对地址进行分析,使得整体效果有了明显改善.