首页> 中国专利> 一种基于马尔科夫模型的专业名词识别方法及装置

一种基于马尔科夫模型的专业名词识别方法及装置

摘要

本发明公开了一种基于马尔科夫模型的专业名词识别方法,属于自然语言识别技术领域。该方法包括:获取一定数量所属领域的文档集合,将其进行合并并进行预处理;以1个字为扫描长度,以K为组词步长构建马尔可夫转移矩阵扫描全文,将所有马尔可夫转移矩阵扩展成一个转移矩阵,相同项累加,选取转移概率大于阈值λ的转移内容作为候选词;确定所属领域的标识词,寻找首字是标识词的候选词作为专业名词,若与选出的专业名词尾字相邻的字组成的词也是候选词,则两者结合构成的词也作为专业名词,以此类推,获得所有的专业名词识别结果。本发明基于马尔科夫模型给出了一种专业名词的识别方法,解决了对新兴行业专业名词进行辨识、建立专业名词库的问题。

著录项

  • 公开/公告号CN116579335A

    专利类型发明专利

  • 公开/公告日2023-08-11

    原文格式PDF

  • 申请/专利权人 亿可能源科技(上海)有限公司;

    申请/专利号CN202310631569.7

  • 发明设计人 张毅骏;

    申请日2023-05-31

  • 分类号G06F40/289(2020.01);G06N7/01(2023.01);

  • 代理机构上海唯智赢专利代理事务所(普通合伙) 31293;

  • 代理人马雪利

  • 地址 200433 上海市杨浦区国通路127号16层(集中登记地)

  • 入库时间 2024-01-17 01:22:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-29

    实质审查的生效 IPC(主分类):G06F40/289 专利申请号:2023106315697 申请日:20230531

    实质审查的生效

  • 2023-08-11

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及自然语言识别技术领域,特别涉及一种基于马尔科夫模型的专业名词识别方法。

背景技术

为了研究某一专业的相关知识,人们往往需要先对该专业的专业名词进行辨识,基于这些构建了的专业名词,才可进行更进一步的研究。针对新型行业,行业内往往缺少实质性可以对该专业名词辨识的方法,因此找到一个合适的识别方法是一个亟待解决的问题。

发明内容

为了解决这一问题,本发明提供了一种基于马尔科夫模型的专业名词识别方法,包括:

(1)获取一定数量所属领域的文档集合,将所述文档集合中的文档进行合并,得到合并文档;

(2)将所述合并文档进行预处理,得到预处理后的文档;

(3)对所述预处理后的文档,以1个字为扫描长度,以K为组词步长构建马尔可夫转移矩阵扫描全文,将所有所述马尔可夫转移矩阵扩展成一个转移矩阵,相同项累加,其中每个元素记为转移内容;

(4)计算所述转移矩阵的转移概率,选取转移概率大于阈值λ的所述转移内容作为候选词;

(5)确定所属领域的标识词,在所述候选词中寻找首字带有所述标识词的候选词作为专业名词,同时若与选出的所述专业名词相连接的词也是所述候选词,则两者合并构成的词也作为所述专业名词,以此类推,获得所有的专业名词的识别结果。

进一步的,所述合并文档进行预处理包括:

构建停用词集合,包括介词、代词;

从所述合并文档中删除所述停用词集合的元素。

进一步的,所述合并文档进行预处理还包括:

构建常用动词集合,包含中文里的常见动词,从所述合并文档中删除所述常见动词集合中的元素。

进一步的,所述合并文档进行预处理还包括:

构建标点符号集合,包含中文里所有的标点符号,从所述合并文档中删除所述标点符号集合中的元素。

本发明还提供了一种基于马尔科夫模型的专业名词识别装置,其特征在于,包括:

语料文档获取模块:用于获取一定数量所属领域的文档集合,将所述文档集合中的文档进行合并,得到合并文档并进行预处理,得到预处理后的文档;

马尔卡夫转移矩阵构建模块:用于对所述预处理后的文档,以1个字为扫描长度,以K为组词步长构建马尔可夫转移矩阵扫描全文,将所有所述马尔可夫转移矩阵扩展成一个转移矩阵,相同项累加,其中每个元素记为转移内容;

专业名词判断模块:用于计算所述转移矩阵的转移概率,选取转移概率大于阈值λ的转移内容作为候选词;确定所属领域的标识词,在所述候选词中寻找首字带有所述标识词的候选词作为专业名词,同时若与选出的所述专业名词相连接的词也是所述候选词,则两者合并构成的词也作为所述专业名词,以此类推,获得所有的专业名词的识别结果。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上所述的基于马尔科夫模型的专业名词识别方法。

本发明还提供了一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于马尔科夫模型的专业名词识别方法。

本发明的有益效果:

本发明根据马尔科夫模型给出了一种专业名词的识别方法,针对新兴领域,可以很好的构建其专业名词库,有助于对新型领域的进一步研究。

附图说明

图1是本发明实施例基于马尔科夫模型的专业名词识别方法的流程示意图。

图2是本发明实施例基于马尔科夫模型的专业名词识别装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步的注释。

本实施例以“双碳”领域专业名词识别为例进行介绍。

实施例一,如图1所示,一种基于马尔科夫模型的专业名词识别方法,包括:

S101、获取一定数量所属领域的文档集合,将所述文档集合中的文档进行合并,得到合并文档;

本实施例中需要获取一定数量(至少不少于1000篇,不少于10万字)的与双碳各方面有关的语料。

具体的查找方法可以有多种,例如可以将整个“双碳”划分成:“碳盘查”,“碳监测”,“碳分析”,“碳优化”,“碳资产管理”,“碳咨询”和“碳足迹”,假设所有的“双碳”领域的专业名词只会涉及上述七个领域。搜索引擎对“盘查”,“监测”,“分析”,“优化”,“资产管理”,“咨询”和“足迹”关键词分别搜索并下载,得到所需数量的文档集合。

S102、将所述合并文档进行预处理,得到预处理后的文档;

有些词很明显不会成为所需要的专业名词,因此可以从合并文中排除掉,来减少需要判断的语料量。定义中文里停用词的集合,即介词、代词这种过滤词的集合;中文里常见动词的集合;中文里所有的标点符号的集合,记为N。

从合并文档中过滤删除上述定义的停用词集合、常见动词集合和所有标点符号集合中的元素,得到预处理后的文档。

S103、对所述预处理后的文档,以1个字为扫描长度,以K为组词步长构建马尔可夫转移矩阵扫描全文,将所有所述马尔可夫转移矩阵扩展成一个转移矩阵,相同项累加,其中每个元素记为转移内容;

对处理后的文档,针对每一个字,以K为步长构建马尔科夫矩阵,逐个扫描,得到所有的马尔科夫矩阵,然后对于相同项,例如都是从a转移到b,进行相同项累加,得到一个大的转移矩阵。

S104、计算所述转移矩阵的转移概率,选取转移概率大于阈值λ的所述转移内容作为候选词;

计算转移矩阵中每个元素的转移概率,设定阈值,转移概率大于阈值的,其对应的词语列为候选词。本实施例中阈值设为0.01,因此大于0.01的即为候选词。

S105、确定所属领域的标识词,在所述候选词中寻找首字带有所述标识词的候选词作为专业名词,同时若与选出的所述专业名词尾字相邻的字组成的词也是所述候选词,则两者结合构成的词也作为所述专业名词,以此类推,获得所有的专业名词的识别结果。

本实施例中标识词为“碳”,寻找首字带有“碳”的候选词,其作为选出的专业名词被记录,同时判断其相邻的词是否为候选词,若是则两者合并构成的词也作为所述专业名词,以此类推,得到所有的专业名词的识别结果。

例如:合并文档中有“碳排放量。。。。”,经过马尔科夫模型判断“碳排”、“排放”、“放量”都是满足条件的候选词,则首先“碳排”被选出,排放作为其相邻候选词,将与其结合得到“碳排放”也是选出的专业名词,放量作为“碳排放”的相邻词,继续与“碳排放”结合,得到“碳排放量”也是选出的专业名词。

实施例二,如图2所示,本发明还提供了一种基于自然语言模型的专业名词识别装置,包括:

本发明还提供了一种基于马尔科夫模型的专业名词识别装置,其特征在于,包括:

语料文档获取模块210:用于获取一定数量所属领域的文档集合,将所述文档集合中的文档进行合并,得到合并文档并进行预处理,得到预处理后的文档;

马尔卡夫转移矩阵构建模块220:用于对所述预处理后的文档,以1个字为扫描长度,以K为组词步长构建马尔可夫转移矩阵扫描全文,将所有所述马尔可夫转移矩阵扩展成一个转移矩阵,相同项累加,其中每个元素记为转移内容;

专业名词判断模块230:用于计算所述转移矩阵的转移概率,选取转移概率大于阈值λ的转移内容作为候选词;确定所属领域的标识词,在所述候选词中寻找首字带有所述标识词的候选词作为专业名词,同时若与选出的所述专业名词尾字相邻的字组成的词也是所述候选词,则两者结合构成的词也作为所述专业名词,以此类推,获得所有的专业名词的识别结果。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上所述的基于马尔科夫模型的专业名词识别方法。

本发明还提供了一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于马尔科夫模型的专业名词识别方法。

实施例三,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上任一项所述的基于马尔科夫模型的专业名词识别方法。

实施例四,本发明还提供了一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述的基于马尔科夫模型的专业名词识别方法。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号