公开/公告号CN115659980A
专利类型发明专利
公开/公告日2023-01-31
原文格式PDF
申请/专利权人 甲骨易(北京)语言科技股份有限公司;
申请/专利号CN202211400414.4
申请日2022-11-09
分类号G06F40/295;G06F40/289;G06F40/211;G06F40/58;
代理机构北京一枝笔知识产权代理事务所(普通合伙);
代理人郑怿
地址 100000 北京市顺义区南彩镇彩达二街2号12-113
入库时间 2023-06-19 18:25:54
法律状态公告日
法律状态信息
法律状态
2023-01-31
公开
发明专利申请公布
技术领域
本发明属于翻译技术领域,具体涉及一种基于句法分析和语义计算的中英文术语提取方法。
背景技术
早期的大多数翻译术语抽取工具只是简单地统计某个词语在整个文本中出现的频率,将出现频率高的词语提取出来作为术语。
近年来抽取关键词的常见方法有tf-idf等,这些模型通常依赖于文本的统计学特性,而不是基于上下文语境、词语与全文的相互关系以及语义相关性来提取。这样会抽取出大量出现频率较高但是与文本内容主题相关度不高不适合作为术语的词语。
在翻译数以百页计的大型项目时,术语翻译的准确性、一致性非常重要,对速度也有要求。因此,在正式开始翻译之前,通常先要对整个项目的文本进行分析,找出术语并为其确定准确的译文。一名优秀的语言专家从10000个单词的英语文本中抽取术语所需时间大约为一小时。相对而言,速度还有待提高。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种能够快速、准确地抽取重要术语的方法,与人工抽取的结果高度一致。
本发明要解决的技术问题通过以下技术方案实现:
一种基于句法分析和语义计算的中英文术语提取系统,包括文本预处理模块、中文分词模块、文本文件拆分模块、命名实体识别模块、术语抽取模块、预训练语言模型模块、相似度计算模块、术语白名单模块和术语筛选模块;
所述文本预处理模块用于移除标点、html链接、乱码,将英文小写化,去除停用词;
所述中文分词模块将中文文本切分成为词组;
所述文本文件拆分模块将超长文本切分为固定长度的短文本;
所述命名实体识别模块根据命名实体抽取结果和词性分析结果抽取术语;
所述术语抽取模块基于命名实体性质;
所述预训练语言模型模块将长文本以及术语候选词转化为向量;
所述相似度计算模块计算向量之间的余弦相似度;
所述术语白名单模块将常见的各垂直领域术语汇总为白名单,若匹配到就直接抽取作为术语;
所述术语筛选模块基于最大边缘相关度。
一种基于句法分析和语义计算的中英文术语提取方法,包括如下步骤:
步骤一,拆分长文本:
读取中英文文档中的所有文本,判断是否超过固定长度,如果未超过,直接进入后续流程,如果超过,则进入长文本拆分模块,将其拆分为多批固定长度的文本;
步骤二,文本预处理:
拆分后的固定长度文本进入文本预处理模块,移除标点、html链接、乱码,将英文小写化,去除停用词;
步骤三,抽取:
经过预处理的中文文本进入中文分词模块,然后根据中文术语白名单抽取出术语候选词,直接添加到术语暂存区;
经过预处理的英文文本进入英文术语白名单模块,抽取出术语候选词,直接添加到术语暂存区;
除此之外,经过预处理的中文和英文文本还可以进入命名实体识别模块,根据命名实体抽取结果和词性分析结果抽取术语;
步骤四,向量化:
使用预训练语言模型将上述步骤抽取出的术语白名单之外的术语候选词转化为向量化表示;
步骤五,计算:
使用相似度计算模块计算术语候选词的最大边缘相关度;
步骤六,筛选:
最大化术语候选词与长文本的相似度,同时最小化术语候选词之间的相似度,根据两种相似度进行筛选,根据筛选指标取前N个术语作为术语提取结果。
进一步地,上述的一种基于句法分析和语义计算的中英文术语提取方法中,根据命名实体抽取结果和词性分析结果抽取术语,具体方法如下:
将以下命名实体结果加入术语候选词:
人名、机构名、专有名词;
分析词性,多个特定词性的词可组合构成复合术语,常见组合形式如下:
名词+名词+名词
名词+名词
专有名词+专有名词+专有名词
专有名词+专有名词
名词+名词+连词+名词+名词
名词+连词+名词+名词+名词
名词+连词+名词
形容词+名词+名词
形容词+名词
形容词+连词+形容词+名词
将符合以上组合形式的词组加入术语候选词。
进一步地,上述计算步骤具体为:
计算术语候选词与长文本的相似度Term_Doc_Similarity;
计算术语候选词之间的相似度Term_Similarity;
计算术语候选词的最大边缘相关度MMR。
进一步地,上述最大边缘相关度计算公式如下:
MMR=(1-Diversity)×Term_Doc_Similarity-Diversity×Term_Similarity
MMR表示最大边缘相关度。
进一步地,上述步骤四向量化还包括使用预训练语言模型将批量固定长度文本转化为向量化表示。
进一步地,上述步骤六筛选具体为:提取的术语个数为top_n,根据最大边缘相关度的计算结果,取分值排在前top_n位的候选词作为最终术语提取结果。
与现有技术相比,本发明的有益效果:
本发明的中英文术语提取方法,包括拆分长文本、文本预处理、抽取、向量化、计算和筛选步骤,能够快速、准确地抽取重要术语,抽取结果与人工抽取方法高度一致。从而节约翻译项目的预处理时间,提高翻译项目经理预处理项目的效率。一名优秀的语言专家从10000个单词的英语文本中抽取术语所需时间大约为一小时。如果采用本发明的中英文术语提取方法,抽取过程可以在5分钟内完成。
附图说明
图1是本发明的中英文术语提取方法的流程图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例1:
本实施例提供了一种基于句法分析和语义计算的中英文术语提取系统,该中英文术语提取系统包括文本预处理模块、中文分词模块、文本文件拆分模块、命名实体识别模块、术语抽取模块、预训练语言模型模块、相似度计算模块、术语白名单模块和术语筛选模块;
其中,文本预处理模块用于移除标点、html链接、乱码,将英文小写化,去除停用词;中文分词模块将中文文本切分成为词组;文本文件拆分模块将超长文本切分为固定长度的短文本;命名实体识别模块根据命名实体抽取结果和词性分析结果抽取术语;术语抽取模块基于命名实体性质;预训练语言模型模块将长文本以及术语候选词转化为向量;相似度计算模块计算向量之间的余弦相似度;术语白名单模块将常见的各垂直领域术语汇总为白名单,若匹配到就直接抽取作为术语;术语筛选模块基于最大边缘相关度。
使用本实施例的中英文术语提取系统,能够快速、准确地抽取重要术语,抽取结果与人工抽取方法高度一致,从而节约翻译项目的预处理时间,提高翻译项目经理预处理项目的效率。
实施例2:
本实施例提供了一种基于句法分析和语义计算的中英文术语提取方法,参照附图1,该中英文术语提取方法包括如下步骤:
步骤一,拆分长文本:读取中英文文档中的所有文本,判断是否超过固定长度,如果未超过,直接进入后续流程,如果超过,则进入长文本拆分模块,将其拆分为多批固定长度的文本。
步骤二,文本预处理:拆分后的固定长度文本进入文本预处理模块,移除标点、html链接、乱码,将英文小写化,去除停用词。
步骤三,抽取:经过预处理的中文文本进入中文分词模块,然后根据中文术语白名单抽取出术语候选词,直接添加到术语暂存区;经过预处理的英文文本进入英文术语白名单模块,抽取出术语候选词,直接添加到术语暂存区;除此之外,经过预处理的中文和英文文本还可以进入命名实体识别模块,根据命名实体抽取结果和词性分析结果抽取术语。
本实施例的根据命名实体抽取结果和词性分析结果抽取术语,具体方法如下:
将以下命名实体结果加入术语候选词:
人名、机构名、专有名词;
分析词性,多个特定词性的词可组合构成复合术语,常见组合形式如下:
名词+名词+名词
名词+名词
专有名词+专有名词+专有名词
专有名词+专有名词
名词+名词+连词+名词+名词
名词+连词+名词+名词+名词
名词+连词+名词
形容词+名词+名词
形容词+名词
形容词+连词+形容词+名词
将符合以上组合形式的词组加入术语候选词。
步骤四,向量化:使用预训练语言模型将上述步骤抽取出的术语白名单之外的术语候选词转化为向量化表示。除此之外,向量化还包括使用预训练语言模型将批量固定长度文本转化为向量化表示。
步骤五,计算:使用相似度计算模块计算术语候选词的最大边缘相关度。计算步骤具体为:
计算术语候选词与长文本的相似度Term_Doc_Similarity;
计算术语候选词之间的相似度Term_Similarity;
计算术语候选词的最大边缘相关度MMR。
最大边缘相关度计算公式如下:
MMR=(1-Diversity)×Term_Doc_Similarity-Diversity×Term_Similarity
MMR表示最大边缘相关度。
步骤六,筛选:最大化术语候选词与长文本的相似度,同时最小化术语候选词之间的相似度,根据两种相似度进行筛选,根据筛选指标取前N个术语作为术语提取结果。提取的术语个数为top_n,根据最大边缘相关度的计算结果,取分值排在前top_n位的候选词作为最终术语提取结果。
本实施例的中英文术语提取方法,能够快速、准确地抽取重要术语,抽取结果与人工抽取方法高度一致。从而节约翻译项目的预处理时间,提高翻译项目经理预处理项目的效率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
机译: 语义词典管理器,语义文本编辑器,语义术语注释器,语义搜索引擎和语义信息系统构建器,该方法基于立即定义语义术语的方法来识别每个单词的准确含义
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
机译: 基于计算机的自动搜索方法基于使用文档术语矩阵和概率密度的语义聚类识别,所述方法与语言无关