首页> 中国专利> 生成有限状态自动机的方法和装置以及识别方法

生成有限状态自动机的方法和装置以及识别方法

摘要

本公开内容涉及生成用于识别文本中的化学名称的有限状态自动机的方法、装置及识别方法。根据本公开内容的一个实施例,该方法包括以下步骤:将有机物名称集中出现的字符片段的类别的表示常量代入所述有机物名称集以得到转换名称集;基于转换名称集中重复出现的转换名称片段更新转换名称集;以及基于更新的转换名称集生成有限状态自动机。本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一:自动生成识别规则、生成有限状态自动机的方法简单、识别化学名称效率高、识别率高。

著录项

  • 公开/公告号CN112560470A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 富士通株式会社;

    申请/专利号CN201910842145.9

  • 发明设计人 房璐;郑仲光;夏迎炬;孙俊;

    申请日2019-09-06

  • 分类号G06F40/289(20200101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人杜诚;马骁

  • 地址 日本神奈川县

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本公开内容涉及文字识别,尤其涉及生成用于识别文本中的化学名称的有限状态自动机的方法、装置及用于识别文本中的化学名称的识别方法。

背景技术

近年来,随着化学领域的技术的快速发展,化学领域的各个分支领域的诸如科学论文和专利等的相关文献越来越多。化学文本挖掘技术、化学名称识别技术显的越来越重要。许多学者已研究主要使用机器学习和基于规则的方法来进行化学名称识别。

但是,机器学习需要大量的已人工标识的语料。基于规则的方法需要特定的专业知识以规划复杂的规则。

发明内容

在下文中将给出关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

本发明提供识别化学名称的方法,其使用用于识别文本中的化学名称的有限状态自动机。该方法可以包括通过化学名称字典自动生成规则。

根据本公开内容的一个方面,提供了一种生成用于识别文本中的化学名称的有限状态自动机的方法,包括以下步骤:初始化步骤:包括将有机物名称集中出现的字符片段的类别的表示常量代入有机物名称集以得到转换名称集;更新步骤:基于转换名称集中重复出现的转换名称片段更新转换名称集;以及生成步骤:基于更新的转换名称集生成有限状态自动机;其中,有机物名称集中的各有机物名称为中文名称;并且初始化步骤包括初始代入步骤:将有机物名称集中出现的字符片段的类别的表示常量代入有机物名称集以得到转换名称集。

根据本公开内容的一个方面,提供了一种用于识别文本中的化学名称的识别方法,其特征在于,识别方法包括:获取文本;使用前述生成有限状态自动机方法生成的有限状态自动机对文本进行识别以提取文本中的有机物化学名称;以及输出包括所提取的有机物化学名称的识别结果。

根据本公开内容的另一方面,提供了一种用于生成有限状态自动机的装置,其特征在于,装置包括:初始化单元,被配置成将有机物名称集中出现的字符片段的类别的表示常量代入有机物名称集以得到转换名称集;更新单元,被配置成基于转换名称集中重复出现的转换名称片段更新转换名称集;以及生成单元,被配置成基于更新的转换名称集生成有限状态自动机;其中,有机物名称集中的各有机物名称为中文名称;并且初始化单元被进一步配置成将有机物名称集中出现的字符片段的类别的表示常量代入有机物名称集以得到转换名称集。

根据本公开内容的又一方面,提供了一种其上存储有程序的存储介质,其特征在于,当在信息处理设备上执行该程序时,该程序使得信息处理设备执行以下步骤:初始化步骤:将有机物名称集中出现的字符片段的类别的表示常量代入有机物名称集以得到转换名称集;更新步骤:基于转换名称集中重复出现的转换名称片段更新转换名称集;以及生成步骤:基于更新的转换名称集生成用于识别文本中的化学名称的有限状态自动机;其中,有机物名称集中的各有机物名称为中文名称;并且初始化步骤包括初始代入步骤:将有机物名称集中出现的字符片段的类别的表示常量代入有机物名称集以得到转换名称集

本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一:自动生成识别规则、生成有限状态自动机的方法简单、识别化学名称效率高、识别率高。

附图说明

参照附图下面说明本公开内容的实施例,这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。相同的附图标记可以表示相同的特征。在附图中:

图1示出了根据本公开内容的一个实施例的生成有限状态自动机的方法的流程图;

图2示出了根据本公开内容的一个实施例的生成有限状态自动机的方法的流程图;

图3示出了根据本公开内容的一个实施例的生成有限状态自动机的方法的流程图;

图4示出了根据本公开内容的一个实施例的用于识别文本中的化学名称的方法的流程图;

图5示出了根据本公开内容的一个实施例的用于生成有限状态自动机的装置的示意性框图;以及

图6是根据本公开内容的一个实施例的信息处理设备的示例性框图。

具体实施方式

在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。

在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开内容,在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构,而省略了与本公开内容关系不大的其他细节。

应理解的是,本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。

本公开内容的一个实施例提供了一种生成用于识别文本中的化学名称的有限状态自动机的方法。下面参照图1对该方法进行描述。

图1示出了根据本公开内容的一个实施例的生成有限状态自动机的方法10的流程图。该有限状态自动机用于识别文本中的化学名称。

步骤S101为初始化步骤。在该步骤中,包括将有机物名称集{N_i}中出现的字符片段Ch_ij的类别C_ij的表示常量R_ij代入有机物名称集{N_i}以得到转换名称集{N’_i},其中i,j是索引。有机物名称集包括多种有机物的名称N_1、N_2……、N_i、……,在本公开内容中有机物名称集可以用{N_i}表示。有机物名称集中的各有机物名称为中文名称。表示常量在方法10中将多次提到,各表示常量可以用于统一表示有机物名称集中出现的某一类包含单个字符的字符片段,或用于统一表示有机物名称集中出现的某一类包含多个字符的字符片段。即,用一个常量表示某类字符片段,该常量被命名为“表示常量”。一个表示常量可以用来表示两个表示常量的序列或者用来表示两个表示常量的序列所表示的字符片段序列。例如,第一表示常量$c001用于表示第一类字符片段,第二表示常量$c002用于表示第二类字符片段,则字符片段序列“第一类字符片段第二类字符片段”(也称为,第三类字符片段)可以用“$c001$c002”表示,也可以定义第三表示常量$c003用于表示第三类字符片段。需要说明的是,前面的表示常量的表达方式仅为示例。将有机物名称集中出现的字符片段的类别的表示常量代入所述有机物名称集以得到所述转换名称集的步骤也被简称为初始化代入步骤。

有机物名称集中的有机物名称可以来自教科书、字典、论文等。有机物名称集中的有机物的选择可以根据有限状态自动机的具体应用场景来定。例如,如果希望该有限状态自动机能够识别文本中的糖类,则可以用收集糖类有机物的名称来构成有机物名称集。优选的,有机物名称集{N_i}中的有机物例如来自有机物化学字典、有机物化学手册等。

作为示例,有机物名称集{N_i}中出现的字符片段Ch_ij的类别C_ij的表示常量R_ij可以采用以下方式:

阿拉伯数字,表示常量为$digit,用于表示阿拉伯数字字符0、1、2、3、4、5、6、7、8、9中的任一个;

中文数字,表示常量为$cdigit,用于表示中文数字字符一、二、三、四、五、六、七、八、九、十中的任一个;

天干,表示常量为$tiangan,用于表示天干字符甲、乙、丙、丁、戊、己、庚、辛、壬、癸中的任一个;

大写字母,表示常量为$upper,用于表示大写英文字母字符A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P、Q、R、S、T、U、V、W、X、Y、Z中的任一个;

小写字母,表示常量为$lower,用于表示小写英文字母字符a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t、u、v、w、x、y、z中的任一个;

希腊字母,表示常量为$greek,用于表示希腊字母字符α、β、γ、δ、ε、ζ、η、θ、ι、κ、λ、μ、ν、ξ、ο、π、ρ、σ、τ、υ、φ、χ……;

顺序字,表示常量为$order,用于表示顺序字字符伯、仲、叔、季中的任一个;

前缀字,表示常量为$prefix,用于表示字符联、聚、脱、增、环、断、正、异、新、顺、反、映、邻、间、对、迫中的任一个;

连缀字,表示常量为$midfix,用于表示字符化、代、杂、合、并、缩中的任一个;

后缀字,表示常量为$suffix,用于表示基、叉基、亚基、爪基、基亚基、次基、自由基、根中的任一个;

化学元素,表示常量为$element,用于表示字符氢、氦、锂、铍、硼、碳、氮、氧、氟、氖、钠、镁、铝、硅、磷、硫、氯、氩、钾、钙等一个化学元素汉字;

标点符号,包括:“,”、“.”、“:”、“;”、“-”、“(”、“)”、“[”、“]”、“{”、“}”、“’”;各类标点符号的表示常量为$punc_b或者用标点符号本身来表示,其中b为索引,为每种标点符号分配不同的索引;

其他常用字,表示常量为$chem,用于表示其他化学常用字符片段,例如,烷、烯、炔、酸、酯、胺、酰、酮、醇、羧、苯、苄、茚、萘、噻、呋、喃、咪、啶、嗪、嘧、哒、吲、哚等。

注意,上述分类方式仅为示例,也可以采用其他分类方式。

为了方便讨论,上述表示常量可以用以下方式来表示:D、C、T、U、L、G、O、P、M、S、E、标点本身、H。在进行初始化代入步骤后,所得到的有机物名称“4-(4-氯苯基)-3-甲基-1-氢-吡唑”的转换名称例如为“D-(D-EHS)-D-TS-D-E-HH”,所得到的有机物名称“反-1,2-环丙烷二羧酸”的转换名称例如为“P-D,D-PTHCHH”。

步骤S103为更新步骤。在该步骤中,基于转换名称集{N’_i}中重复出现的转换名称片段更新所述转换名称集。这有利于得到高效、简洁的有限状态自动机。

步骤S105为生成步骤。在该步骤中,基于更新的转换名称集生成有限状态自动机。进一步的,生成步骤S105包括:基于更新转换名称集生成正则表达式;以及基于正则表达式生成有限状态自动机。

本领域技术人员能够明了方法10可以有许多变化。下面参照图2描述方法10的进一步的细化的示例性实现方式。

图2示出了根据本公开内容的一个实施例的生成有限状态自动机的方法20的流程图。

在步骤S201a中,将有机物名称集中出现的字符片段的类别的表示常量代入有机物名称集以得到转换名称集。

在步骤S201b中,初始化二元表示集{Sd_k}和重复表示集{Sr_m},k,m是索引。例如,将将二元表示集和重复表示集初始化为空集。

二元表示集的元素Sd_k用于表示转换名称集中不同的两个相邻的表示常量的转换名称片段。例如,对于转换名称“P-D,D-PTHCHH”,可以得到如下二元表示:“P-”、“-D”、“D,”、“,D”、“D-”、“-P”、“PT”、“TH”、“HC”、“CH”。可以为各二元表示设置唯一的表示常量,例如“$pbar=P-”,“$bard=-D”。

重复表示集的元素Sr_m用于表示转换名称集中同一表示常量连续出现的转换名称片段。例如转换名称集中具有转换名称“U-D-HSHHHHH”,其中的表示常量“H”连续出现了5次,因此,可以定义表示常量$hhs=,$hhs可以用于表示在转换名称集中表示常量“H”连续重复出现的转换名称片段。$hhs可以用于表示一类字符片段:由多个表示常量“H”构成的字符片段。

步骤S201a和S201b和合称为初始化步骤。

在步骤S203更新二元表示集合和重复表示集,包括:二元表示更新步骤和重复表示更新步骤。对于二元表示更新步骤,执行以下处理:确定转换名称集中的不同的两个相邻表示常量的转换名称片段并为两个相邻表示常量设置相应表示常量作为二元表示以更新的二元表示集,其中,二元表示集中的各二元表示满足:该二元表示所对应的转换名称片段在转换名称集中出现的次数大于第一预定阈值Th1。第一预定阈值Th1可以根据有机物名称集的大小来定,当有机物名称集中含的有机物名称较多时,可以将Th1定的较大,反之,则可以将Th1定的较小。例如,当转换名称片段“$c001$c002”在转换名称集中出现的次数大于Th1时,设置表示常量“$c003”作为一个二元表示,并收录在二元表示集中。二元表示集包括当前转换名称集中的满足条件的所有二元表示。可选的,记录各二元表示Sd_k所对应的转换名称片段在转换名称集中出现的次数Num_k(也称为第一次数)。对于重复表示更新步骤,执行以下处理:确定转换名称集中同一表示常量连续出现n次或n次以上的转换名称片段并针对该同一表示常量设置相应表示常量作为重复表示以更新重复表示集,其中,重复表示集中的每个重复表示能够统一表示该重复表示所对应的同一表示常量连续出现的转换名称片段,并且n等于第二预定阈值Th2,例如5。可选的,记录各重复表示序列Sr_m出现次数Num_m(也称为第二次数),出现次数Num_m用与重复表示集中的重复表示对应的相应二元重复表示在转换名称集中出现次数来表示;二元重复表示用于表示由两个相同的相应表示常量组成的转换名称片段。例如对于重复表示“$hhs”,其第二次数为转换名称片段“HH”的出现次数。当“HHHH”在转换名称集中出现时,其对次数Num_m的贡献是3次。重复表示集合包括当前转换名称集中的满足条件的所有重复表示。

在步骤S203b,判断更新的二元表示集相对于先前的二元表示集及更新的重复表示集相对于先前的重复表示集是否均无变化。例如,在首次更新二元表示集和重复表示集后,更新的二元表示集相对于先前的二元表示集{}(即,空集)变为{Sd_1,Sd_2,…,Sd_99},更新的重复表示集相对于先前的重复表示集{}(即,空集)变为{Sr_1,Sr_2,…,Sr_49},则判断结果为“否”。进一步的,例如在第三次更新二元表示集和重复表示集后,更新的二元表示集相对于先前的二元表示集{Sd_1,Sd_2,…,Sd_99}变为{Sd_1,Sd_2,…,Sd_99,Sd_100,…,Sd_109},或者更新的重复表示集相对于先前的重复表示集{Sr_1,Sr_2,…,Sr_49}变为{Sr_1,Sr_2,…,Sr_49,Sr_100,…,Sr_105},则判断结果为“否”。当更新的二元表示集和先前的二元表示集相同(即,无新的二元表示加入),且更新的重复表示集和先前的重复表示集相同(即,无新的重复表示加入)时,判断结果为“是”。

在步骤S203c,执行代入,具体来说:当判断步骤的判断结果为“否”时,将二元表示集中的表示常量和重复表示集中的表示常量代入转换名称集以更新转换名称集。然后返回到步骤S203a,以再次执行二元表示更新步骤、重复表示更新步骤和判断步骤。需要说明的是,虽然图2中,执行完步骤S203c后,流程返回到步骤S203a,但是也可以不返回到步骤S203a;例如,在一个变型例中,执行完步骤S203c后,前进至步骤S205。具体代入时,被代入的表示常量是那些新加入的二元表示和重复表示(即,转换名称集中未出现过的表示常量)。

进一步的,当判断步骤的判断结果为“否”时,根据各二元表示的第一次数以及各重复表示的第二次数,确定将二元表示集中的表示常量和重复表示集中的表示常量代入转换名称集中时各表示常量的代入顺序。

表1转换名称片段的出现次数

例如,对于转换名称集中的转换名称“P-D,D-PTHCHH”,二元表示及重复表示的出现次数如表1所示。在代入时,按照出现次数确定代入顺序:出现次数高则优先代入。因此,“$dbar”被首先代入,并且由于代入了“$dbar”,所以不再考虑“$commad”和“$barp”的代入。按照这样的规则,最终该转换名称的更新结果为“P$bard,$dbarP$thC$hhs”。

步骤S203a、S203b和S203c可以合称为更新步骤。

当判断步骤的判断结果为“是”时,执行步骤S205:基于更新的转换名称集生成有限状态自动机。

可以对方法20进一步细化。下面参照图3进行描述。

图3示出了根据本公开内容的一个实施例的生成有限状态自动机的方法30的流程图。

可以看到,方法30与方法20基本相同。相同的步骤不再赘述。对于新出现的步骤S203d,当判断步骤的判断结果为“是”时,执行步骤S203d:对转换名称集中重复的转换名称进行去重,使得转换名称集中各转换名称出现的次数为一。这有利于提高有限状态自动机的简洁性和效率。在完成步骤S203d后执行步骤S205。在方法30中,步骤S203a、S203b、S203c和S203d可以合称为更新步骤。

可选的,更新步骤还可以包括以下合并处理。这有利于提高有限状态自动机的简洁性和效率。

当转换名称集中的第一转换名称和第二转换名称的差别仅在于同一位置处的表示常量分别为第一表示常量和与第一表示常量不同的第二表示常量,则基于统一表示所述第一表示常量和所述第二表示常量的“(第一表示常量|第二表示常量)”的表示样式合并所述第一转换名称和所述二转换名称,其中“|”表示“或”。例如:

第一转换名称:

$ubar$tsbard<$commad>$commadbar$cce$mbardbarT$commads;

第二转换名称:

P$tsbard<$commad>$commadbar$cce$mbardbarT$commads;

仅第一个表示常量不同,因此可以考虑合并为:

合并转换名称为:

($ubar|P)$tsbard<$commad>$commadbar$cce$mbardbarT$commads。

当转换名称集中的第三转换名称相对于第一转换名称和第二转换名称的差别仅在于同一位置不存在第一表示常量或第二表示常量,则基于“[第一表示常量|第二表示常量]”的表示样式合并第一转换名称、第二转换名称和第三转换名称,其中,“[第一表示常量|第二表示常量]”表示第一表示常量或第二表示常量出现零次或一次。例如:

存在第三转换名称:

$tsbard<$commad>$commadbar$cce$mbardbarT$commads;

则第一、二、三转换名称合并为:

合并转换名称:

[$ubar|P]$tsbard<$commad>$commadbar$cce$mbardbarT$commads。

当转换名称集中的第二转换名称能够通过将转换名称集中的第一转换名称中的第一位置处的第一表示常量替换为第二表示常量来得到,转换名称集中的第四转换名称能够通过将第一转换名称中的第二位置处的第三表示常量替换为第四表示常量来得到,并且相对于第三表示常量,第一表示常量展开为有机物名称集中出现的字符后,所得到的字符串长度更短,则基于统一表示第一表示常量和第二表示常量的“(第一表示常量|第二表示常量)”的表示样式合并第一转换名称和第二转换名称而不合并第一转换名称和第四转换名称,其中“|”表示“或”。例如:

第一转换名称:

$ubar$tsbard<$commad>$commadbar$cce$mbardbarT$commads;

第二转换名称:

P$tsbard<$commad>$commadbar$cce$mbardbarT$commads;

第四转换名称:

$ubar$tsbard<$commad>$commadbar$ph$mbardbarT$commads;

因为$cce展开后长度为3,$ubr展开后长度为2,所以第一、二转换名称合并,而合并第一、四转换名称。

根据本公开内容的生成有限状态自动机的方法生成的有限状态自动机可以高效识别文本中有机化学名称。下面参照图4对本公开内容的用于识别文本中的化学名称的方法进行描述。

图4示出了根据本公开内容的一个实施例的用于识别文本中的化学名称的识别方法40的流程图。

在步骤S401,获取文本。文本可以来自科技文献、书籍等。

在步骤S403,使用根据本公开内容的方法生成的有限状态自动机对文本进行识别以提取文本中的有机物化学名称。可选的,可以记录所提取的有机物化学名称出现的次数、每次出现时对应的位置。

在步骤S405,输出包括所提取的有机物化学名称的识别结果。识别结果可以包括:提取的有机物化学名称。或者,进一步包括所提取的有机物化学名称出现的次数和每次出现时对应的位置。

本公开内容还提供一种用于生成有限状态自动机的装置,该装置用于识别文本中的有机物化学名称。下面参照图5进行描述。

图5示出了根据本公开内容的一个实施例的用于生成有限状态自动机的装置50的示意性框图。

如图5中所示,装置50包括初始化单元501、更新单元503和生成单元505。

初始化单元501被配置成将有机物名称集中出现的字符片段的类别的表示常量代入有机物名称集以得到转换名称集。有机物名称集中的各有机物名称为中文名称。

更新单元503被配置成基于转换名称集中重复出现的转换名称片段更新转换名称集。

生成单元505被配置成基于更新的转换名称集生成有限状态自动机。

关于初始化单元501、更新单元503和生成单元505的进一步详细配置可以参考上述对生成用于识别文本中的化学名称的有限状态自动机的方法的描述。

本公开内容还提供一种其上存储有程序的存储介质,当在信息处理设备上执行该程序时,该程序使得信息处理设备执行根据本发明的上述方法。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。信息处理设备包括至少一个处理器。信息处理设备包括:台式计算机、平板计算机、便携式计算机和智能电话。

根据本公开内容一个方面,还提供一种信息处理设备。

图6是根据本公开内容的一个实施例的信息处理设备600的示例性框图。在图6中,中央处理单元(CPU)601根据存储在只读存储器(ROM)602中的程序或从存储部分608加载到随机存取存储器(RAM)603的程序来进行各种处理。在RAM 603中,也根据需要来存储在CPU601执行各种处理时所需的数据等。

CPU 601、ROM 602以及RAM 603经由总线604彼此连接。输入/输出接口605也连接至总线604。

下述部件连接至输入/输出接口605:包括软键盘等的输入部分606;包括诸如液晶显示器(LCD)等的显示器以及扬声器等的输出部分607;诸如硬盘的存储部分608;以及包括网络接口卡如LAN卡、调制解调器等的通信部分609。通信部分609经由诸如英特网、局域网、移动网络的网络或其组合执行通信处理。

驱动器610根据需要也连接至输入/输出接口605。可拆卸介质611如半导体存储器等根据需要安装在驱动器610上,使得从其中读取的程序根据需要被安装到存储部分608。

CPU 601可以运行实现前述生成有限状态机的方法或识别方法的程序的代码。

本发明的技术方案能够基于有机物名称集自动生成用于识别文本中的化学名称的有限状态自动机。该有限状态自动机能够方便且有效的识别和提取文本中的有机物名称,提取出有机物名称对于后续分析、处理等是有益的。本发明的方法无需非常专业的化学知识,也不需要训练样本,更不需要对训练样本人工标记,即生成有限状态自动机的方法简单、高效。可以理解:当有机物名称集选择的恰当的话,本发明的有限状态自动机将具有识别化学名称效率高、识别率高的特点。本发明所公开的方法、装置及计算机可读介质至少有助于实现以下有益效果之一:自动生成识别规则、生成有限状态自动机的方法简单、识别化学名称效率高、识别率高。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改(包括在行的情况下,各实施例之间特征的组合或替换)、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

1.一种生成用于识别文本中的化学名称的有限状态自动机的方法,其特征在于,所述方法包括以下步骤:

初始化步骤:包括将有机物名称集中出现的字符片段的类别的表示常量代入所述有机物名称集以得到所述转换名称集;

更新步骤:基于所述转换名称集中重复出现的转换名称片段更新所述转换名称集;以及

生成步骤:基于更新的转换名称集生成所述有限状态自动机;

其中,所述有机物名称集中的各有机物名称为中文名称。

2.根据附记1所述的方法,其中,所述初始化步骤还包括初始化表示集步骤:将二元表示集和重复表示集初始化为空集;

所述二元表示集中的二元表示用于表示所述转换名称集中的不同的两个相邻的表示常量的转换名称片段;并且

所述重复表示集中的重复表示用于表示所述转换名称集中同一表示常量连续出现的转换名称片段。

3.根据附记2所述的方法,其中,在所述初始代入步骤中,仅将有机物名称集中出现的选定字符片段的表示常量代入所述有机物名称集,所述选定字符片段不“,”、“”、“:”、“;”、“-”、“(”、“)”、“[”、“]”、“{”、“}”和“'”。

4.根据附记1所述的方法,其中,所述更新步骤包括:

二元表示更新步骤:确定所述转换名称集中的两个相邻表示常量不同的转换名称片段并为所述两个相邻表示常量设置相应表示常量作为二元表示以更新二元表示集,其中,所述二元表示集中的各二元表示满足:该二元表示所对应的转换名称片段在所述转换名称集中出现的次数大于第一预定阈值;

重复表示更新步骤:确定所述转换名称集中同一表示常量连续出现n次或n次以上的转换名称片段并针对所述同一表示常量设置相应表示常量作为重复表示以更新重复表示集,其中,所述重复表示集中的每个重复表示能够统一表示该重复表示所对应的同一表示常量连续出现的转换名称片段,并且n等于第二预定阈值;

判断步骤:判断更新的二元表示集相对于先前的二元表示集及更新的重复表示集相对于先前的重复表示集是否均无变化;以及

更新转换名称集步骤:当所述判断步骤的判断结果为“否”时,将所述二元表示集中的表示常量和所述重复表示集中的表示常量代入所述转换名称集以更新所述转换名称集。

5.根据附记4所述的方法,其中,所述更新步骤还包括:

在所述更新转换名称集步骤后,再次执行所述二元表示更新步骤、所述重复表示更新步骤和所述判断步骤。

6.根据附记4所述的方法,其中,当所述判断步骤的判断结果为“是”时,执行所述生成步骤。

7.根据附记4所述的方法,

其中,所述二元表示更新步骤包括记录各二元表示所对应的转换名称片段在所述转换名称集中出现的次数作为第一次数;

所述重复表示更新步骤包括记录与所述重复表示集中的重复表示对应的各二元重复表示在所述转换名称集中出现的次数作为第二次数;并且

各二元重复表示用于表示由两个相同的相应表示常量组成的转换名称片段。

8.根据附记7所述的方法,其中,所述更新转换名称集步骤包括:当所述判断步骤的判断结果为“否”时,根据各二元表示的第一次数以及各重复表示的第二次数,确定将所述二元表示集中的表示常量和所述重复表示集中的表示常量代入所述转换名称集中时各表示常量的代入顺序。

9.根据附记4所述的方法,其中,所述更新步骤包括:

对所述转换名称集中重复的转换名称进行去重,使得所述转换名称集中各转换名称出现的次数为一。

10.根据附记1所述的方法,其中,所述有机物名称集中出现的字符的类别被设置成包括:阿拉伯数字、中文数字、天干、大写字母、小写字母、希腊字母、顺序字、前缀字、后缀字、连缀字、化学元素、其他常用字、“,”、“”、“:”、“;”、“-”、“(”、“)”、“[”、“]”、“{”、“}”和“'”。

11.根据附记1所述的方法,其中,所述生成步骤包括:

基于所述转换名称集生成正则表达式;以及

基于所述正则表达式生成所述有限状态自动机。

12.根据附记4所述的方法,其中,所述第二预定阈值为四、五或六。

13.一种用于生成有限状态自动机的装置,其特征在于,所述装置包括:

初始化单元,被配置成将有机物名称集中出现的字符片段的类别的表示常量代入所述有机物名称集以得到转换名称集;

更新单元,被配置成基于所述转换名称集中重复出现的转换名称片段更新所述转换名称集;以及

生成单元,被配置成基于更新的转换名称集生成所述有限状态自动机;

其中,所述有机物名称集中的各有机物名称为中文名称;并且

所述初始化单元被进一步配置成将所述有机物名称集中出现的字符片段的类别的表示常量代入所述有机物名称集以得到所述转换名称集。

14.一种其上存储有程序的存储介质,其特征在于,当在信息处理设备上执行该程序时,该程序使得信息处理设备执行以下步骤:

初始化步骤:包括将有机物名称集中出现的字符片段的类别的表示常量代入所述有机物名称集以得到所述转换名称集;

更新步骤:基于所述转换名称集中重复出现的转换名称片段更新所述转换名称集;以及

生成步骤:基于更新的转换名称集生成所述有限状态自动机;

其中,所述有机物名称集中的各有机物名称为中文名称。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号