您现在的位置: 首页> 研究主题> 词语相似度

词语相似度

词语相似度的相关文献在2004年到2022年内共计115篇,主要集中在自动化技术、计算机技术、信息与知识传播、语言学 等领域,其中期刊论文93篇、会议论文13篇、专利文献149324篇;相关期刊56种,包括人天科学研究、现代图书情报技术、郑州大学学报(理学版)等; 相关会议13种,包括SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)、第一届北京化工大学大学生创新创业论坛、中国医学科学院/北京协和医学院医学信息研究所/图书馆2010年学术年会等;词语相似度的相关文献由280位作者贡献,包括李国佳、朱新华、王小林等。

词语相似度—发文量

期刊论文>

论文:93 占比:0.06%

会议论文>

论文:13 占比:0.01%

专利文献>

论文:149324 占比:99.93%

总计:149430篇

词语相似度—发文趋势图

词语相似度

-研究学者

  • 李国佳
  • 朱新华
  • 王小林
  • 史俊冰
  • 张培颖
  • 杨小平
  • 邰伟鹏
  • 于水
  • 代阳
  • 任晓娜
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

期刊

    • 陈丹华; 王艳娜; 周子力; 赵晓函; 李天宇; 王凯莉
    • 摘要: 当前大部分WordNet词语相似度计算方法由于未充分考虑词语的语义信息和位置关系,导致相似度的准确率降低。为解决上述问题,提出了一种使用词向量模型Word2Vec计算WordNet词语相似度的新方法。在构建WordNet数据集时提出一种新形式,不再使用传统的文本语料库,同时提出信息位置排列方法对数据集加以处理。利用Word2Vec模型训练WordNet数据集后得到向量表示。在公开的R&G-65、M&C-30和MED38词语相似度测评集上完成了词语相似度计算任务,从多个角度进行了Pearson相关系数对比实验。结果显示该文计算的相似度值与人工判定值计算取得的Pearson相关系数指标得到了显著提升。
    • 申震; 王逊; 黄树成; 周尓昊
    • 摘要: 针对现有的句子相似度计算中仅考虑单个词语的语义信息,而忽略了句子的语法结构信息的问题,提出了一种结合依存句法分析和词语语义相似度的计算方法.使用哈工大社会计算与信息检索研究中心研发的语言技术平台对句子进行句法分析获得依存句法分析树,从中构造包含句子成分、依存关系、词语等多特征信息的依存关系三元组.采用动态加权的方法充分利用词语在知网与同义词词林中的语义信息,通过依存关系三元组体现句子语法结构和词语语义两个层面上的语义信息,提高了相似度计算的合理性,并且扩大了可计算相似度的词语范围.实验表明:该相似度计算方法的准确性相比同类方法有了一定的提高,能更为准确的衡量句子间的相似度.
    • 闫强; 张笑妍; 周思敏
    • 摘要: [目的]将词语的语义信息引入TextRank算法中,改进关键词抽取效果.[方法]使用HowNet知识库提供的词语义原信息计算词语相似度,根据设定的相似度阈值构建语义词图和矩阵.之后将语义矩阵和共现矩阵加权,得到新的词节点转移概率矩阵.[结果]改进后的算法在短文本上表现优于传统TextRank、TF-IDF和LDA,F值分别提高了6.6%、9.0%和10.3%;在长文本上表现逊于TF-IDF,与TextRank差别不大.[局限]分词程序对复合词、新词和实体类名词识别效果较差,使算法抽取到残缺的关键词,导致F值降低.此外,义原相似度算法也可进一步改进.[结论]结合语义的TextRank算法使关键词抽取过程兼顾词语共现及语义关系,为短文本关键词抽取提供了新思路.
    • 闫强; 张笑妍; 周思敏
    • 摘要: 【目的】将词语的语义信息引入TextRank算法中,改进关键词抽取效果。【方法】使用HowNet知识库提供的词语义原信息计算词语相似度,根据设定的相似度阈值构建语义词图和矩阵。之后将语义矩阵和共现矩阵加权,得到新的词节点转移概率矩阵。【结果】改进后的算法在短文本上表现优于传统TextRank、TF-IDF和LDA,F值分别提高了6.6%、9.0%和10.3%;在长文本上表现逊于TF-IDF,与TextRank差别不大。【局限】分词程序对复合词、新词和实体类名词识别效果较差,使算法抽取到残缺的关键词,导致F值降低。此外,义原相似度算法也可进一步改进。【结论】结合语义的TextRank算法使关键词抽取过程兼顾词语共现及语义关系,为短文本关键词抽取提供了新思路。
    • 邱俊安; 邱奇志; 周三三; 陈先桥; 贺宜
    • 摘要: 为解决以往突发事件案例检索中忽视文本属性重要性的问题,提高案例检索的准确度,将词语语义相似度计算应用到文本属性中.因案例文本特别是结构化突发事件案例的文本属性多为短文本,常规的文本分析技术难以获取足够的语义信息,故着重从3个方面研究了短文本的语义:上下文语义、单个汉字的语义和概念的层次关系,提出了基于WNCH的词语语义相似度计算方法,该方法在传统词嵌入模型中增加了Ngram和汉字的语义信息,并与HowNet相融合.在此基础上,给出了基于属性相似度的突发事件案例检索流程,将WNCH方法应用到文本属性相似度的计算.实验结果表明,文本属性的引入使得案例检索匹配更多的关键信息,从而使案例检索更加准确.
    • 姜永清; 赵宪佳
    • 摘要: 关键词提取技术是目前计算机文本分类等技术采用的基本技术。笔者根据传统TFIEF算法的特点,研究出创新型的关键词提取算法,算法的基础是以词语权重来计算的,并在文本候选关键词中把词频比设计成去噪音的权值以及引入词语相似度,该方法对降低文本同类语料库提取关键词权重的影响都是非常有效的,也消除了TFIDF算法存在偏差。经过实验的分析和对比,该新型方法拥有更高的平均召回率。
    • 贾玉祥; 赵倩倩; 李育光; 郑一; 昝红英
    • 摘要: Word similarity based on selectional preference acquisition method was investigated. Acquiring argument seeds was implemented firstly, and then they were expanded based on word similarity. Word similarity computing methods, word embedding based method, and dictionary based method were com-pared. It was shown that the former performed much better than the latter and they were complementary and could be combined. Word similarity based on selectional preference acquisition method had strength over other methods for its flexible seed choosing, no need of deep syntactic and semantic text processing, and high accuracy in pseudo-disambiguation experiments.%考察基于词语相似度的语义选择限制知识获取方法.首先获取种子论元,再利用词语相似度进行论元扩展.比较了基于词向量的词语相似度计算方法与基于词典的词语相似度计算方法在选择限制知识获取任务中的表现.实验表明,前者效果更好,且二者有一定互补性,可以结合使用.与语义选择限制知识获取的其他方法相比,基于词语相似度的方法,种子选取灵活,不要求对语料进行深层句法语义分析,在伪消歧实验中也取得了较高的正确率,具有一定的优势.
    • 杨欣; 郭建彬
    • 摘要: 基于百度百科对词语相似度计算进行研究,结合TF-IDF算法和词条百度百科内容,提出一种基于改进TF-IDF的百度百科词语相似度计算方法.TF-IDF算法对文本中词语权重进行计算时,面临部分代表性较好的词语权重较低的问题,通过引进百科词条中词语分布的类别信息,包括词语在类内、类间分布对词语权重的影响改进词语权重计算,此外,根据词语在全集中出现的频率定义词语的代表性,通过计算百科词条中词语的权重因子,构建词条的相关向量,根据向量之间余弦值计算词语相似度.实验表明,相对于不使用TF-IDF方法计算权重和基于经典TF-IDF方法计算权重,结合类别信息的TF-IDF方法和定义代表性的TF-IDF方法提高了词语相似度计算的准确性.
    • 张希翔; 梁彪
    • 摘要: 电网企业级信息系统每次进行增量升级、消缺等作业时会严格按照实施方案进行,实施方案步骤不严谨、对风险的疏忽会带来巨大的安全隐患.针对现阶段人为对实施方案进行评估存在的管控力度不够、风险细节易疏漏等问题,提出基于潜语义模型的变更作业实施方案风险分析方法.试验证明了本文方法可有效发现电网信息作业实施过程中潜在的风险,可在电网实际信息作业中推广应用.
    • 王寒茹; 张仰森
    • 摘要: 相似度计算是自然语言处理工作的基石.随着自然语言处理技术的发展,相似度计算的研究价值和应用价值突显.现有的计算方法因其复杂度和精确度的问题,与现实应用的需求并不匹配.针对现有需求,对于不同粒度的文本,研究出一套适合大规模实际应用的相似度计算方法体系迫在眉睫.从方法论的角度,对目前主流的相似度计算方法进行总结,介绍了不同粒度的文本相似度计算的差别以及近几年的研究进展,总结了目前相似度计算方向存在的问题,并对发展趋势进行了展望.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号