首页> 中国专利> 基于多特征融合的文本相似度计算方法

基于多特征融合的文本相似度计算方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及自然语言处理技术领域，特别涉及一种基于多特征融合的文本相似度计算方法，包括以下步骤：(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度；(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。根据文档的特点，在比较文档正文相似度的基础上还进行其他特征的比对，然后通过加权线性组合的方式得到文本相似度并对其进行排序，选择相似度最大的可比语料对加入到可比语料库中，该方法无需平行语料库和跨语言词典，因此其泛化能力较强，可以适用于多种不同语言的跨语言文本相似度计算。

著录项

公开/公告号CN109766545A

专利类型发明专利
公开/公告日2019-05-17

原文格式PDF
申请/专利权人中国科学院合肥物质科学研究院;
展开▼

申请/专利号CN201811579480.6
发明设计人高翊;冯韬;李淼;胡泽林;曹宜超;付莎;李华龙;杨选将;刘先旺;郭盼盼;曾伟辉;
展开▼

申请日2018-12-24
分类号
代理机构北京中济纬天专利代理有限公司;
代理人秦超
地址 230031 安徽省合肥市蜀山区蜀山湖路350号
入库时间 2024-02-19 09:53:11

法律信息

法律状态公告日

法律状态信息

法律状态
2019-06-11

实质审查的生效 IPC(主分类):G06F17/27 申请日:20181224

实质审查的生效
2019-05-17

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于多特征融合的短文本相似度计算方法 [P] . 中国专利： CN107273913B . 2020.04.21
2. 一种基于多特征融合的短文本相似度计算方法 [P] . 中国专利： CN107273913A . 2017-10-20
3. TEXT SIMILARITY CALCULATION DEVICE, TEXT SIMILARITY CALCULATION METHOD, AND PROGRAM [P] . 世界知识产权组织专利： WO2020009067A1 . 2020-01-09

机译：文本相似度计算设备，文本相似度计算方法和程序
4. Text similarity calculation device, text similarity calculation method, and program [P] . 日本专利： JP6553776B1 . 2019-07-31

机译：文本相似度计算装置，文本相似度计算方法和程序
5. TEXT SIMILARITY CALCULATION METHOD AND DEVICE, COMPUTER APPARATUS, AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2019136993A1 . 2019-07-18

机译：文本相似度计算方法和装置，计算机设备和存储介质