公开/公告号CN113836886A
专利类型发明专利
公开/公告日2021-12-24
原文格式PDF
申请/专利权人 北京清博智能科技有限公司;
申请/专利号CN202110948184.4
申请日2021-08-18
分类号G06F40/194(20200101);G06F40/258(20200101);
代理机构34161 合肥兆信知识产权代理事务所(普通合伙);
代理人孟祥龙
地址 100089 北京市海淀区花园路5号133幢13层1301
入库时间 2023-06-19 13:49:36
技术领域
本发明涉及文本识别技术领域,具体为一种新闻标题相似度识别方法。
背景技术
现有相似文本识别技术在计算文本相似度时,主要采用基于词典或者特征工程的文本相似度计算技术,词典或者特征工程的准确性,在很大程度上影响算法准确性。
但是,针对词汇量少、语义信息少的短文本,如新闻标题来说,难以建立准确的词典或者特征工程,将导致现有相似文本识别技术难以捕捉短文本中的关键信息,相似度计算效果较差,相似文本识别率低。
即现有相似文本识别技术存在针对新闻标题等短文本的相似文本识别率低的技术问题。
发明内容
为实现上述目的,本发明采取的技术方案为:
一种新闻标题相似度识别方法,包括以下步骤:
1.输入两个标题;
2.对两个标题中的特殊字符进行剔除;
3.对剔除后的标题内容进行相同字符统计,得出相同字数;
4.计算相同字符数与最短的标题的比值,比值大于0.5即判定为相似,否则判定为不相似。
工作原理和有益效果:简单,快速,可移植强。
具体实施方式
根据下述实施例,可以更好地理解本发明。
一种新闻标题相似度识别方法,包括以下步骤:
1.输入两个标题;如:a:“我国超一半人感染幽门螺杆菌!”,b:“我国超一半人已感染幽门螺杆细菌”;
2.对两个标题中的特殊字符进行剔除;
3.对剔除后的标题内容进行相同字符统计,得出相同字数;
4.计算相同字符数与最短的标题的比值,比值大于0.5即判定为相似,否则判定为不相似。
机译: 使用图像的相似度检测方法及其检测值的图像识别方法,以及使用相似度检测方法及其语音检测值的语音识别方法,以及振动的相似度检测方法及其检测值使用运动机器的波动机器异常确定方法以及使用相似度检测方法及其视频检测值的视频识别方法,以及使用相似度检测方法及其三维检测值的三维识别方法
机译: 语音的相似度检测方法和使用其检测值的语音识别方法,振动波的相似度检测方法和使用该检测值的机器异常确定方法,图像的相似度检测方法及其检测使用值的图像识别方法,立体相似度检测方法使用检测到的值的立体识别方法,使用检测到的值的运动图像相似性检测方法和运动图像识别方法
机译: 图像相似度检测方法,使用其检测值的图像识别方法,语音相似度检测方法,使用其检测值的语音识别方法,振动波相似度检测方法,机械异常度确定方法,使用其确定性的模拟度确定方法利用其检测值进行识别的方法,三维相似度检测装置以及利用其检测值进行的三维识别方法