语义相似性
语义相似性的相关文献在1992年到2022年内共计114篇,主要集中在自动化技术、计算机技术、测绘学、心理学
等领域,其中期刊论文83篇、会议论文8篇、专利文献452022篇;相关期刊56种,包括情报学报、测绘科学技术学报、浙江大学学报(工学版)等;
相关会议8种,包括第六届全国地理信息科学博士生学术论坛、第四届和谐人机环境联合学术会议、第二届全国Web信息系统及其应用会议(WISA2005')等;语义相似性的相关文献由339位作者贡献,包括何克清、卫金茂、周向东等。
语义相似性—发文量
专利文献>
论文:452022篇
占比:99.98%
总计:452113篇
语义相似性
-研究学者
- 何克清
- 卫金茂
- 周向东
- 唐金辉
- 姬东鸿
- 张积家
- 施伯乐
- 李泽超
- 籍茜
- 黄江平
- 乔子越
- 何源浩
- 余敦辉
- 冯雨晖
- 刘丹
- 刘伟
- 吴敏
- 周园春
- 周武爱
- 周皓峰
- 孙群
- 宁致远
- 宿晓坤
- 张学良
- 张晖
- 彭智勇
- 徐艺
- 戴斌
- 方晨
- 曹杰
- 曾承
- 李亦学
- 李兵
- 李梢
- 杜一
- 杨晓强
- 杨汀
- 杨睿
- 欧伟杰
- 汪卫
- 汪涛
- 王俊超
- 王振华
- 王智慧
- 王瑞琴
- 范太华
- 袁晓洁
- 贺强
- 赖新星
- 陈世亮
-
-
左玉生;
张礼
-
-
摘要:
为了提高文本语义相似性度量的准确性,该文从深度学习的角度出发提出了一种新的文本语义相似性度量框架,充分利用深度神经网络实现词级别、句子级别、文本级别的表示学习,使得学习到的表示向量能提供融合上下文信息的丰富语义信息,在此基础上,设计了相似性度量层,采用简单的三层网络实现任意两个文本向量的相似性值计算。在两个基准数据集上进行了试验验证,试验结果表明提出的文本语义相似性度量能准确地度量文本相似性,在MPRC和SNLI数据集上分别获得了89.33%和94.53%的F1-score值,优于选取的对比方法。
-
-
魏江南;
皋军;
热甫凯提
-
-
摘要:
医护人员在处理医疗不良事件时,大多依靠个人主观经验给出解决方案。采用知识图谱特征学习和协同过滤算法相结合的方式对医院长期积累的不良事件数据集进行采集训练,为医护人员提供最优解决方案。首先通过知识图谱训练算法将不良事件中的病人信息转化为低纬向量,采用余弦相似度算法计算出病人的相似矩阵;再通过协同过滤算法依靠事件基本信息计算出不良事件的相似矩阵;最后将两者结合为一个推荐结果集。该算法提供的推荐结果集正确率比传统方法平均提高35%,不仅减轻了医护人员的负担,还有助于管理层更有效地追溯责任人。
-
-
周倩;
王逊;
李灵慧;
黄树成;
王云沼
-
-
摘要:
传统的图书推荐算法只考虑外部评分数据,且会面临物品冷启动等问题。本文将图书外部评分数据与图书内涵知识相结合,提出融合知识图谱和协同过滤的图书推荐算法。首先通过基于知识图谱的训练将图书的语义信息转化为低维向量矩阵,利用余弦相似度公式计算图书间的语义相似度,增加新图书与其他图书的相似性,根据图书语义相似矩阵获取图书的语义近邻。同时,改进协同过滤相似性计算方法,根据图书外部评分矩阵获取图书评分近邻,最后将评分近邻与语义近邻相结合,得到最终的图书推荐结果集。该算法在Book-Crossing数据集上进行测试,实验结果表明算法精确率提高到4.37%,比传统方法提高了0.69%,并且比其他相关算法有更好的表现。
-
-
陈嫣然;
梁正;
赵庆柏;
黄宇;
李松清;
于全磊;
周治金
-
-
摘要:
通过描绘发散性思维测验(物品多用途,AUT)中答案生成在累积函数和语义相似性等一系列参数上的量化特征,揭示创造性思维的语义搜索过程。结果发现:(1)新颖AUT条件中,语义搜索呈现与自由联想类似的负加速特点,但搜索速度较寻常AUT条件更慢。(2)新颖AUT条件中所生成的答案与题目(即物品)均具有较低的语义相似性,且显著小于寻常AUT条件。(3)新颖AUT条件中生成的答案比寻常AUT条件表现出显著更低的聚类程度,其中可聚类答案和未聚类答案与题目的语义相似度均较低,且不存在显著差异,二者在新颖性上也不存在显著差异。以上结果说明了创造性思维的语义信息搜索过程具有与自由联想类似的激活扩散特征,但总体搜索速度较慢。新颖性要求使得个体在最初搜索时便开始摆脱题目的语义限制而进行远距离搜索(避免就近搜索),并倾向于在每个语义场中只生成一个答案(避免局部搜索),但也可能会在远离题目的语义场中生成多个同类别答案。
-
-
牛奉高;
高旭霞
-
-
摘要:
随着文本信息的迅猛增长,数据挖掘已成为知识发现的重要方法.短文本相似性(short text similarity,STSim)度量是数据挖掘研究的重要技术.为了更好的提高短文本相似性度量精度,本文提出了基于加权网络改进的中文短文本相似性度量的一种新模型.首先,基于词语间的共现频次对语义网络进行加权,利用加权复杂网络表征短文本;其次,考虑短文本加权复杂网络权重识别度低的特点及每个词语节点的位置,计算短文本中每个词语的加权复杂网络综合特征值;最后,根据新模型计算短文本相似性,并通过聚类实验评价其优劣.实验结果表明,新提出的相似性度量模型优于STSim模型.
-
-
潘亚峰;
朱俊虎;
周天阳
-
-
摘要:
APT攻击已经成为网络安全的重要威胁之一,从大量告警日志数据中识别APT攻击并还原攻击场景已成为当前急需研究的问题.首先介绍了攻击场景重构基本概念和技术流程框架.其次,依据采用的关联分析方法,对攻击场景重构方法进行了分类,并分别综述了基于经验知识、基于因果关系、基于语义相似性和基于机器学习4类方法的基本步骤和具体案例.最后,讨论了不同方法的优势和不足,结合最新技术应用指出了未来发展趋势.
-
-
袁中臣;
马宗民
-
-
摘要:
在软件重用中,软件设计重用受到关注.UML类图被广泛应用于软件设计,UML类图的重用已经成为软件设计重用研究的重点.随着可重用的UML类图数量的不断增加,分类成为一项基础性工作.一个新的基于语义的UML类图的两级分类被提出.定义了类图之间的语义相似性度量,提出了行最大值捕捉算法获取中心类图来标识每个类别特征,基于改进的KNN(K邻近)算法构建了一个新的集成分类器E-KNN(ExtensibleKNN).从分类质量和效率上验证了所构建分类器的有效性.
-
-
石晨;
张宇;
胡博
-
-
摘要:
为了实现大型语料库中近义词/同义词短语的查找,提出了一种基于共同语境的近义词/同义词短语查找模型,它通过n-gram分布式方法捕获语义相似性,不需要解析就能隐式地保存局部句法结构,使底层方法语言独立;具体实现分为两个阶段:第一阶段是上下文收集和过滤,即用围绕查询短语的本地上下文作为条件模型的特征来捕获语义和语法信息.第二阶段是候选词短语收集和筛选,即对数据中的每个"左""右"和"配对"的全部实例进行迭代,以收集一组近义词/同义词候选短语;还给出了构成模型的要素和用于评价模型性能的评分函数;基于不同大型语料库的实验结果表明,提出的建模方法在总的统计评分查找性能和整体可扩展性方面都优于常用的其他查找方法模型.
-
-
罗月童;
汪涛;
杨梦男;
张延孔
-
-
摘要:
随着智慧城市的不断发展,基于交通卡口自动获取车辆行车轨迹,为基于轨迹的车辆行为分析奠定了基础.但是,因为卡口的位置固定,车辆轨迹表示为卡口序列,所以文中首先将卡口和轨迹分别映射为单词和句子,应用语句的语义相似性方法计算轨迹相似性;然后在轨迹相似性的基础上提出轨迹熵,用轨迹熵度量某个车辆所有轨迹的规律性;最后基于轨迹熵分析车辆的行为特征,如轨迹熵低的车辆意味着行车特别有规律,很可能是通勤车.为便于用户进行深入分析,文中进一步提供了包含多联动视图的可视分析系统,允许用户观察和比较车辆轨迹和轨迹熵,结合聚类分析和相关交互,帮助用户发现有意义的车辆行为,如上下班的通勤车的轨迹熵较低、游街模式的出租车轨迹熵很高.对昆明市2019年2月份的卡口数据集进行了分析,结果表明所提方法能有效发现不同轨迹熵区间内的车辆出行行为及其特点,证明了所提方法的有效性.
-
-
谢金峰;
王羽;
葛唯益;
徐建
-
-
摘要:
关系检测是知识库问答的关键步骤,直接影响问答质量.现有方法中基于编码比较的方法提取文本整体语义进行匹配会丢失序列的局部信息,而基于交互的方法在文本低层表征层面进行比较会忽略全局语义.针对现有方法无法兼顾全局语义和局部语义信息的问题,提出了一种基于多语义相似性的关系检测模型,通过BERT模型分别对问题和关系进行语义表示,然后引入注意力机制、双向长短期记忆网络和多层感知机进行局部关联性分析;利用BERT计算出的句向量中含有序列的全局语义信息,设计了问题和关系句向量的全局相似度度量.在基准数据集SimpleQuestions和WebQSP上进行了实验验证,所提方法分别取得了93.92%和87.81%的准确率,优于其他现有的方法.
-
-
-
霍欢;
张薇;
刘亮;
李洋
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
在多数神经网络模型仍然将目光放在顺序结构上时,近期出现的两种基于句法树的模型TreeLSTMs和TBCNNs由于加入了结构信息而在多个自然语言处理任务上表现出色.考虑到TreeLSTMs因计算空间关联性使其训练效率不高,为了改进这一缺点,本文提出一种针对句法树的混合神经网络模型,借助TBCNNs的树卷积和池化方法实现了类似TreeLSTMs的计算,故将此模型命名为Quasi-TreeLSTMs.本文在依存树和支持树上分别构建了模型的两种版本Dependency Quasi-TreeLSTMs和Constituency Quasi-TreeLSTMs,实验结果表明,在情感分类和语义相似性两类任务上Quasi-TreeLSTMs的表现优异.
-
-
WU Lin;
吴林;
WANG Yong-bin;
王永滨
- 《2017首届文化科技学术会议》
| 2017年
-
摘要:
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算;另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank算法主题爬虫算法将网页主题相似度计算与传统的PageRank算法相结合,将网页链接结构与网页主题相关性结合在一起;另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.
-
-
蔡志明;
耿俊浩;
杜芋乐;
韩卫刚;
拜明星
- 《第十届国防科技工业工艺创新与智能制造技术研讨会》
| 2016年
-
摘要:
工艺优化工作是制造企业提高制造质量和效率、降低生产成本的基础工作.本文提出了一种集成多种TRIZ知识的系统化工艺优化方法.该方法首先对工艺问题进行根因分析发现工艺冲突并获得可能的发明原理,然后基于工艺冲突建立工艺物场模型得到可能的标准解,最后采用语义相似性计算方法得到可行性最好的一组发明原理和标准解,从而同时确定工艺优化的方向和方式.通过这种方法,能够降低工艺优化问题求解的难度和不确定性.通过对某型叶轮的加工工艺优化,验证了该方法的有效性和正确性.
-
-
房彩丽;
张书亮
- 《第六届全国地理信息科学博士生学术论坛》
| 2014年
-
摘要:
目前城市地下管线信息化的程度越来越高,受管线管理模式及管线空间数据应用目的差异的影响,当前城市管线信息化中普遍存在两种类型的管线地理信息系统应用:以综合管线为数据资源,主要为城市规划服务的综合管线地理信息系统;以专业管线为数据资源,主要为管线权属单位管线运维服务的专业管线地理信息系统.但由于受管线信息要素分类、管线图式标准、采集及信息化平台差异等的影响,两类管线应用虽面向同一区域内的相同管线对象,却形成了具有明显不同语义、数据模型和数据精度的两种空间数据资源.rn 本实验将专业人员对实验数据进行现场勘查和图上对比得到的匹配结果作为准确匹配结果,作为匹配率和准确率计算的参考。与专业人员的匹配结果对比,管点匹配匹配率达到86.17%,准确率达到100% ,管段长度匹配率达到90.23%,准确率达到100%影响匹配率的一个重要原因是由于专业管段和综合管段之间存在多种匹配关系(1:1,1:N,N:M,导致同一范围内的管点和管段的匹配率不一致。实际上匹配中存在空间上相似但是语义上不一致的管点,只是考虑空间相似会造成错误匹配,降低匹配的准确度。所以管线匹配不仅需要考虑管线数据的几何和拓扑信息,而且需要考虑管线数据的语义信息,从而更加准确地获得管线匹配集。这些语义信息还快速地筛选出候选集中的潜在匹配要素,提高整个匹配的效率。
-
-
-
方晨;
王智慧;
周向东;
周皓峰;
汪卫;
施伯乐
- 《第二十三届中国数据库学术会议(NDBC2006)》
| 2006年
-
摘要:
聚类分析作为一种重要的非指导学习方法,在多媒体数据管理中得到越来越多的应用,如对图像进行聚类预处理,有助于发现图像之间的语义相似性、减少检索代价等.但是,由于图像语义与视觉特征之间的差异,使得图像聚类的效果还有待进一步提高.聚类分析中,图像通常用高维特征向量表示,显然,在描述图像的相似性方面,各个维所代表的视觉特征的重要性是不一样的,甚至彼此矛盾.传统方法通过权重调整或降维并不能很好地解决上述问题.本文提出一种新的动态子空间距离计算公式(DSDF),根据任意两幅图像之间关联比较密切的维度,计算出图像之间的相似子空间距离,并利用Clarans聚类算法进行图像子空间聚类.实验表明,该方法在图像聚类效果上明显优于传统聚类方法.
-