首页> 中国专利> 基于RUTA规则语言进行法规文本解析的方法及系统

基于RUTA规则语言进行法规文本解析的方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开基于RUTA规则语言进行法规文本解析的方法及系统，其中该方法包括：获取待解析的法规文本数据；对所述法规文本数据的内容进行标记，获取标记结果数据；将所述标记结果数据解析为结构化的法规文本数据并存储。利用RUTA规则对法规文本数据的内容进行标记，获取标记结果数据；入了RUTA规则以后，能够通过标记将对应实体内容之间的关系一起提取出来，进而实现将标记结果数据解析为结构化的法规文本数据并存储，不仅复用性好，而且获取的结构化文本内容准确性也比较高。基于RUTA规则语言进行法规文本解析的系统采用上述方法，以准确地提取结构化的法规文本数据。

著录项

公开/公告号CN112364621A

专利类型发明专利
公开/公告日2021-02-12

原文格式PDF
申请/专利权人北京新橙科技有限公司;北京新橙长科技有限公司;
展开▼

申请/专利号CN202011001064.5
发明设计人张俊磊;
展开▼

申请日2020-09-22
分类号G06F40/205(20200101);G06F16/31(20190101);G06F16/951(20190101);G06Q50/18(20120101);
代理机构11111 北京市万慧达律师事务所;
代理人黄玉东
地址 100084 北京市朝阳区惠河南街礼安门A座
入库时间 2023-06-19 09:52:39

说明书

技术领域

本发明涉及数据处理技术领域，尤其涉及基于RUTA规则语言进行法规文本解析的方法及系统。

背景技术

政府网站发布的裁判文书和法规条文通常为文本类型的非结构化数据，对于非结构化数据，人可以通过大脑分析获取其中的有用信息，但是对计算机而言很难处理这种非结构化数据，必须基于一定的规则，将他们提取为结构化的数据，然后对这些结构化的数据加以利用分析，来帮助人更好的利用这些数据。目前，对于非结构化文本数据的解析，大多采用正则表达式来提取内容并封装为结构化的数据，但利用这种方式提取像法规这种复杂文本时，对正则表达式本身的复杂度要求高且复用性差，而且获取的结构化文本内容准确性也比较差。

RUTA规则语言是一种基于角色的脚本语言，其中包含正则表达式以及自身所构建的语法，其不仅可以对特定信息进行标注，也可以对特定关系进行给定，入了RUTA规则以后，能够通过标记将对应实体内容之间的关系一起提取出来，但是，目前还没有将RUTA规则语言应用于对法规文本进行结构化解析的方案。

发明内容

本发明的目的在于提供基于RUTA规则语言进行法规文本解析的方法及系统，以准确地提取结构化的法规文本数据。

为了实现上述目的，本发明提供如下技术方案：

一种基于RUTA规则语言进行法规文本解析的方法，包括：

获取待解析的法规文本数据；

对所述法规文本数据的内容进行标记，获取标记结果数据；

将所述标记结果数据解析为结构化的法规文本数据并存储。

优选地，获取待解析的法规文本数据的方法包括：

识别并抓取网页上的法规文本数据，将所述法规文本数据清洗后存储到第一数据库中；

从所述第一数据库中获取待解析的法规文本数据。

较佳地，对所述法规文本数据的内容进行标记，获取标记结果数据的方法包括：

针对法规文本数据中的内容特征点分别设置对应的文本标记规则，生成文本标记模型；

利用所述文本标记模型对所述法规文本数据的内容进行标记，得到标记结果数据，所述标记结果数据用于将法规文本数据中每个部分内容与其对应的标记对应保存，同时保存每个部分内容之间的关系。

具体地，所述内容特征点包括法规名称特征、日期特征以及法规文本格式特征。

进一步地，针对法规文本数据中的法规名称特征设置对应的文本标记规则的方法包括：

基于正则表达式设置法规名称结束标志符；

遍历法规文本数据，获取并标记所有包含书名号的数据；

从所有包含书名号的数据中筛选出包含法规名称结束标志符的数据，并标记为法规名称。

优选地，针对法规文本数据中的法规名称特征设置对应的文本标记规则的方法还包括：

创建法规名称存储表并预存储多个法规名称；

遍历法规文本数据，获取与所述法规名称存储表中存在的法规名称相一致的数据，并标记为法规名称。

优选地，其特征在于，针对法规文本数据中的法规名称特征设置对应的文本标记规则的方法还包括：

从所有包含书名号的数据中筛选出符合预设格式的数据，并标记为法规名称，其中，所述预设格式为：本+法规名称结束标志符。

较佳地，针对法规文本数据中的日期特征设置对应的文本标记规则的方法包括：

利用正则表达式设置日期识别规则；

遍历法规文本数据，获取并标记所有包含数字的数据，所述数字的类型包括阿拉伯数字和中文大写数字；

从所有包含数字的数据中筛选出符合日期识别规则的数据，并标记为日期。

较好地，针对法规文本数据中的法规文本格式特征设置对应的文本标记规则的方法包括附件标记方法，所述附件标记方法具体包括：

利用正则表达式设置附件开始标志符；

遍历法规文本数据，获取并标记所有符合附件开始标志符的数据；

将所述符合附件开始标志符的数据之后紧跟的文本数据或所述符合附件开始标志符的数据下一行的文本数据标记为附件标题；

将标记为附件标题的数据与下一个标记为附件开始标志符的数据之间的数据标记为当前附件标题的附件正文，以及将最后一个标记为附件标题的数据之后的所有数据标记为最后一个附件标题的附件正文。

优选地，针对法规文本数据中的法规文本格式特征设置对应的文本标记规则的方法包括正文标记方法，所述正文标记方法具体包括：

基于正则表达式设置法规正文格式标志符；

遍历法规文本数据，获取并标记所有符合法规正文格式标志符的数据；

将标记为法规正文格式标志符的数据与下一个标记为法规正文格式标志符的数据之间的数据标记为当前法规正文格式标志符的附件正文，以及将最后一个标记为法规正文格式标志符的数据与标记为附件开始标志符的数据之间的数据标记为最后一个法规正文格式标志符的附件正文。

具体地，所述法规正文格式标志符包括：编开始标志符、章开始标志符、节开始标志符、条开始标志符、款开始标志符及项开始标志符。

较佳地，所述正文标记方法还包括：

当遍历法规文本数据，没有符合法规正文格式标志符的数据时，查找所有段前数字，所述数字区分类型；

筛选出所有的任一数字都不重复的数字类型中出现次数最多的数字类型作为主类型；

将所述主类型的数字标记为条开始标志符。

较好地，对所述法规文本数据的内容进行标记过程中，当一个字符被再次标记时，自动清除之前的标记。

优选地，将所述标记结果数据解析为结构化的法规文本数据并存储的方法包括：

在elasticsearch数据库中预设法规文本的存储结构，所述存储结构中的存储结构单元与法规文本内容的标记一一对应；

利用JAVA循环遍历所述标记结果数据，将所述法规文本的内容按照标记结果进行提取，并按照标记对应存储到所述存储结构单元中，得到结构化的法规文本数据。

一种基于RUTA规则语言进行法规文本解析的系统，包括数据获取单元、标记单元及解析单元，其中，

所述数据获取单元用于获取待解析的法规文本数据；

所述标记单元用于对所述法规文本数据的内容进行标记，获取标记结果数据；

所述解析单元用于将所述标记结果数据解析为结构化的法规文本数据并存储。

一种计算机可读存储介质，具有存储在其上的计算机可读程序指令，所述计算机可读程序指令用于执行权利要求1至14中任一项所述的基于RUTA规则语言进行法规文本解析的方法。

一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至14中任一项所述的基于RUTA规则语言进行法规文本解析的方法。

与现有技术相比，本发明提供的基于RUTA规则语言进行法规文本解析的方法及系统具有以下有益效果：

本发明提供的基于RUTA规则语言进行法规文本解析的方法，利用RUTA规则对法规文本数据的内容进行标记，获取标记结果数据；入了RUTA规则以后，能够通过标记将对应实体内容之间的关系一起提取出来，进而实现将标记结果数据解析为结构化的法规文本数据并存储，不仅复用性好，而且获取的结构化文本内容准确性也比较高。

本发明提供的基于RUTA规则语言进行法规文本解析的系统，采用上述基于RUTA规则语言进行法规文本解析的方法，以准确地提取结构化的法规文本数据。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例中基于RUTA规则语言进行法规文本解析的方法流程示意图；

图2为本发明实施例中对法规文本数据的内容进行标记获取标记结果数据的方法流程示意图；

图3为本发明实施例中针对法规文本数据中的日期特征设置对应的文本标记规则的方法流程示意图；

图4为本发明实施例中附件标记方法的流程示意图；

图5为本发明实施例中正文标记方法的流程示意图；

图6为本发明实施例中基于RUTA规则语言进行法规文本解析的系统示意图；

图7为本发明实施例中一种电子设备的模块结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，一种基于RUTA规则语言进行法规文本解析的方法，包括：

获取待解析的法规文本数据；

对法规文本数据的内容进行标记，获取标记结果数据；

将标记结果数据解析为结构化的法规文本数据并存储。

其中，获取待解析的法规文本数据的方法包括：

识别并抓取网页上的法规文本数据，将法规文本数据清洗后存储到第一数据库中；

从第一数据库中获取待解析的法规文本数据。

第一数据库可以选用MySQL等关系型数据库，数据清洗包括将从网页获取的法规文本中掺杂的HTML标签以及特殊字符等剔除掉，然后从第一数据库中获取经过清洗处理的法规文本数据去进行解析，能够有效提高解析的效率及正确性。

请参阅图2，对法规文本数据的内容进行标记，获取标记结果数据的方法包括：

针对法规文本数据中的内容特征点分别设置对应的文本标记规则，生成文本标记模型；

利用文本标记模型对法规文本数据的内容进行标记，得到标记结果数据，标记结果数据用于将法规文本数据中每个部分内容与其对应的标记对应保存，同时保存每个部分内容之间的关系。

其中，内容特征点包括法规名称特征、日期特征以及法规文本格式特征。

由于法规文本数据本身是非结构化的数据，计算机不懂其含义，因此通过为法规文本数据标记内容特征点，使得计算机能够按照内容特征点将原始的法规文本数据解析并提取为结构化的法规文本数据，在此基础上，方便于进一步的应用处理，例如，根据提取到的法规名称特征进行相关法规的链接、根据提取到的日期特征判断法规的有效状态等等。

在具体实施中，针对法规文本数据中的法规名称特征设置对应的文本标记规则的方法包括：

基于正则表达式设置法规名称结束标志符；

遍历法规文本数据，获取并标记所有包含书名号的数据；

从所有包含书名号的数据中筛选出包含法规名称结束标志符的数据，并标记为法规名称。

法规名称结束标志符的例如法|决定|解释|规定|意见|规则|条例|标准|办法|细则|条令|通则|总则|通知|修正案|请示|批复|协定|布告|通告|公告等，在法规文本中，常常以书名号引用其他法规，因此，遍历法规文本数据，获取并标记所有包含书名号的数据，例如，标记为book，然后在所有标记为book的数据中查找以法规名称结束标志符作为结尾的数据，标记为法规名称。

此外，针对法规文本数据中的法规名称特征设置对应的文本标记规则的方法还包括：

创建法规名称存储表并预存储多个法规名称；

遍历法规文本数据，获取与法规名称存储表中存在的法规名称相一致的数据，并标记为法规名称。

即预先创建一个存储有常用的简单法规的法规名称存储表law.txt，然后将表中存在的法规名称在法规文本数据中进行标记，避免了一些法规名称因为没有书名号被遗漏。

进一步的，针对法规文本数据中的法规名称特征设置对应的文本标记规则的方法还包括：

从所有包含书名号的数据中筛选出符合预设格式的数据，并标记为法规名称，其中，预设格式为：本+法规名称结束标志符。

即定义“本”+法规名称结束标志符，且暂时没有标记为法规名称的，标记为法规名称，用于标识出自身法规，比如：本法，本决定，本规定，在应用处理中还可以自动链接到对应的法规名称全名及相关信息等。

在此基础上，我们还可以对法规名称进一步的设置多个属性，例如设置5个属性：text(名称)、self(是否绑定自身法规)、simple(简单法规，指法规名称存储表law.txt中的法规)、inQuote(法规名称中是否含有双引号)、basis(是否是基础法规，法规前面有前缀(根据|按照|依照|贯彻落实))。如果法规名称中包含双引号，那么Law中的inQuote属性设置为true；如果法规以“根据“、”按照“、”依照“或”贯彻落实”开头的，法规属性basis设置为true。还可以在法规名称的基础上定义最高法或最高检的法规名称，标记为HighCourtLaw。如果标记的法规名称后面跟有“司法解释”或“解释”，则将已经标注的法规名称标记清除。

在具体实施中，请参阅图3，针对法规文本数据中的日期特征设置对应的文本标记规则的方法包括：

利用正则表达式设置日期识别规则；

遍历法规文本数据，获取并标记所有包含数字的数据，数字的类型包括阿拉伯数字和中文大写数字；

从所有包含数字的数据中筛选出符合日期识别规则的数据，并标记为日期。

数字类型包含中文数字和阿拉伯数字，比如：〇一二三四五六七八九十百千万零；0 1 2 3 4 5 6 7 8 9；还包含中文数字和阿拉伯数字分别与括号的组合等，例如(一)、(1)等。此外，如果数字前面有“第”，那么就把“第”和后面的数字一起看成一个整体，这个主要是为了解析后面条款项，其RUTA规则语言下的正则表达式为："第"Numbers{->SHIFT(Numbers,1,2)}。

在数字标记的基础上，使用正则表达式分别标记年、月、日，首先定义年份类型，我们只分析19年以后的年份，因为新中国是1949年成立，分析以前的是没有意义的，年份的格式可能有大写小写还可能有全角半角，RUTA规则语言下利用正则表达式“([11一][99九]|[22二][00〇零])[〇一二三四五六七八九十百千万零0123456789

请参阅图4，针对法规文本数据中的法规文本格式特征设置对应的文本标记规则的方法包括附件标记方法，附件标记方法具体包括：

利用正则表达式设置附件开始标志符；

遍历法规文本数据，获取并标记所有符合附件开始标志符的数据；

将符合附件开始标志符的数据之后紧跟的文本数据或符合附件开始标志符的数据下一行的文本数据标记为附件标题；

其中，附件开始标识符一般有两种正则表达形式，分别为：

(1)"^附[录件表]([((]？[零○〇一二三四五六七八九十\\d0123456789]+[))]？)？[：:]？"，其表示了以“附件”、“附录”、“附表”开头后面跟数字，也可不跟，比如：附件1:。

(2)"^(附([((]？[零○〇一二三四五六七八九十\\d0123456789]+[))]？)？([：:]+))(？！[则属加])"，其表示了以“附”开头后面跟数字也可不跟，但最后不包含“则”，“属”，“加”空格等关键字。比如：附1:。

请参阅图5，针对法规文本数据中的法规文本格式特征设置对应的文本标记规则的方法包括正文标记方法，正文标记方法具体包括：

基于正则表达式设置法规正文格式标志符；

遍历法规文本数据，获取并标记所有符合法规正文格式标志符的数据；

其中，法规正文格式标志符包括：编开始标志符、章开始标志符、节开始标志符、条开始标志符、款开始标志符及项开始标志符。例如：

标记编开始标志符，其规则为：

1)"^[总分附][]*则[^\n]*"；

2)"^第[((]？[零○〇一二三四五六七八九十百\\d0123456789]+[))]？(编|篇|分编)[^\n]*"。

标记章开始标志符，其规则为："^第[((]？[零○〇一二三四五六七八九十百\\d0123456789]+[))]？章[^\n]*"。

标记节开始标志符，其规则为："^第[((]？[零○〇一二三四五六七八九十百\\d0123456789]+[))]？节[^\n]*"。

标注条开始标志符，其规则为："^第[((]？([零○〇一二三四五六七八九十百千\\d0123456789]+)[))]？条(之([一二三四五六七八九十]+))？"。

上述规则只作为一种具体实施示例，利用相似的正则表达式分别进行正文格式标识符的标记，作为法规文件数据结构化提取的内容特征点，也在本申请的保护范围内。

由于有些最高院等机构下发的意见文件中，其正文没有明确的正文格式标识符，仅以不同类型的数字作为条款的区分，例如中文大写“一”代表第一条，阿拉伯数字“1”代表第一款，因此，正文标记方法还包括：

当遍历法规文本数据，没有符合法规正文格式标志符的数据时，查找所有段前数字，其中数字区分类型，即区分该数字为中文大写数字、阿拉伯数字以及是否有括号等；

筛选出所有的任一数字都不重复的数字类型中出现次数最多的数字类型作为主类型；

将主类型的数字标记为条开始标志符。

具体实施过程包括：

1)将各种数字开头加入数字列表numberList。

2)统计数字列表numberList中每个数字出现的次数，若大于2，则将与该数字具有同样数字类型的数字都加入舍弃列表excludeList，例如“1”出现了3次，则将阿拉伯数字这一数字类型的所有数字加入舍弃列表excludeList。

3)从舍弃列表excludeList中删除重复的数字。

4)所有数字中，将第一个不在excludeList的数字所对应的数字类型设为主类型，并将该数字类型的所有数字加入主类型列表typeList。

5)将不是主类型且不在舍弃列表中的数字加入考虑列表includeList。

6)对考虑列表includeList进行去重操作，并加入主类型列表typeList。

7)统计主类型列表typeList中数量最多的数字类型设为主类型。

8)将主类型的数字标记为条开始标识符。

以上即实现了对没有符合法规正文格式标志符的数据进行标记，以方便于提取到准确的结构化法规文本数据。

除此之外，本发明实施例提供的基于RUTA规则语言进行法规文本解析的方法，还可以标记发文机关Publisher，其规则为：

1)REGEXP(".*(厅|会|院|部|局|署|办公室|人民银行|社|小组|所|办|委|人民政府|中心|海关|司)$"),-REGEXP(".*[：].*"),-REGEXP("(政委)$")。

2)REGEXP(".*[部局市省厅署行][]*长[:：]？[]*[\u4e00-\u9fa5·.]{2,18}$"),-REGEXP(".*(副|助理|专员|成员|科员).*"),-REGEXP("干部$"。

3)REGEXP(".*主[]*[任席][:：]？[]*[\u4e00-\u9fa5·.]{2,18}$")。

4)REGEXP(".*总[]*理[:：]？[]*[\u4e00-\u9fa5·.]{2,18}$")。

同理，还可以利用法规文本发布时的结尾标识符结合文本数据的之间的上下文关系标记法规文本的标题Title，正文结尾Ending等，以此实现了针对法规文本数据中的内容特征点分别设置对应的文本标记规则，生成文本标记模型，进而利用文本标记模型对法规文本数据的内容进行标记，得到标记结果数据，标记结果数据用于将法规文本数据中每个部分内容与其对应的标记对应保存，同时保存每个部分内容之间的关系。

值得注意的是，为了提高文本解析的精确度，对法规文本数据的内容进行标记过程中，当一个字符被再次标记时，自动清除之前的标记，以避免由于同一个字符具备不同标记而导致提取结果为乱码等情况。

最后，将标记结果数据解析为结构化的法规文本数据并存储，具体方法包括：

在elasticsearch数据库中预设法规文本的存储结构，存储结构中的存储结构单元与法规文本内容的标记一一对应；

利用JAVA循环遍历标记结果数据，将法规文本的内容按照标记结果进行提取，并按照标记对应存储到存储结构单元中，得到结构化的法规文本数据。

elasticsearch数据库具有倒排索引的特性，又由于入了RUTA规则以后，通过编写特定的RUTA关系规则，能够将实体之间的关系一起提取出来，因此能够有效地将法规文本的内容按照标记结果进行提取并对应存储，得到准确的结构化的法规文本数据。解析得到规范且准确的法规文本数据后，因为已经区分出了它的编章节条款项，所以我们可以对每条数据进行处理，将他们加入检索报告，或者为这篇法规中引用的其他法规添加链接等，为后端应用的处理提供了很大的便利。

实施例二

请参阅图6，本发明实施例提供一种基于RUTA规则语言进行法规文本解析的系统，包括数据获取单元、标记单元及解析单元，其中，

数据获取单元用于获取待解析的法规文本数据；

标记单元用于对法规文本数据的内容进行标记，获取标记结果数据；

解析单元用于将标记结果数据解析为结构化的法规文本数据并存储。

本发明提供的业务审批系统，采用上述实施例一中的基于RUTA规则语言进行法规文本解析的方法，将RUTA规则语言与法规文本数据的解析相结合，以准确地提取结构化的法规文本数据。与现有技术相比，本发明实施例提供的基于RUTA规则语言进行法规文本解析的系统的有益效果与上述实施例一提供的基于RUTA规则语言进行法规文本解析的方法的有益效果相同，且该系统中的其他技术特征与上一实施例方法公开的特征相同，在此不做赘述。

实施例三

本发明实施例提供一种计算机可读存储介质，具有存储在其上的计算机可读程序指令，计算机可读程序指令用于执行上述实施例一中的基于RUTA规则语言进行法规文本解析的方法。

本发明实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读存储介质可以是电子设备中所包含的；也可以是单独存在，而未装配入电子设备中。

上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被电子设备执行时，使得电子设备：获取至少两个网际协议地址；向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求，其中，所述节点评价设备从所述至少两个网际协议地址中，选取网际协议地址并返回；接收所述节点评价设备返回的网际协议地址；其中，所获取的网际协议地址指示内容分发网络中的边缘节点。

或者，上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被电子设备执行时，使得该电子设备：接收包括至少两个网际协议地址的节点评价请求；从所述至少两个网际协议地址中，选取网际协议地址；返回选取出的网际协议地址；其中，接收到的网际协议地址指示内容分发网络中的边缘节点。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定，例如，数据获取单元还可以被描述为“用于获取待解析的法规文本数据的单元”。

本发明提供的计算机可读存储介质，存储有用于执行上述基于RUTA规则语言进行法规文本解析的方法的计算机可读程序指令，解决了解析法规文本数据时获取的结构化文本内容准确性差的问题。与现有技术相比，本发明实施例提供的计算机可读存储介质的有益效果与上述实施例一提供的基于RUTA规则语言进行法规文本解析的方法的有益效果相同，且该计算机可读存储介质中的其他技术特征与上述实施例一方法公开的特征相同，在此不做赘述。

实施例四

本发明实施例提供一种电子设备，电子设备包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例一中的基于RUTA规则语言进行法规文本解析的方法。

下面参考图7，其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备可以包括处理装置(例如中央处理器、图形处理器等)，其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中，还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

通常，以下系统可以连接至I/O接口：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置；包括例如磁带、硬盘等的存储装置；以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的电子设备，但是应理解的是，并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置从网络上被下载和安装，或者从存储装置被安装，或者从ROM被安装。在该计算机程序被处理装置执行时，执行本公开实施例的方法中限定的上述功能。

本发明提供的电子设备，采用上述实施例一中的基于RUTA规则语言进行法规文本解析的方法，实现了准确获取结构化法规文本内容。与现有技术相比，本发明实施例提供的电子设备的有益效果与上述实施例一提供的基于RUTA规则语言进行法规文本解析的方法的有益效果相同，且该电子设备中的其他技术特征与上述实施例一方法公开的特征相同，在此不做赘述。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于RUTA规则语言进行法规文本解析的方法及系统 [P] . 中国专利： CN112364621A . 2021-02-12
2. 自然语言处理设备以及文法规则侦错方法 [P] . 中国专利： CN107679040A . 2018-02-09
3. Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis [P] . 美国专利： US6278967B1 . 2001-08-21

机译：自动化系统，用于生成特定领域，基于语法规则和/或基于词性分析的自然语言翻译
4. Method and system for building a domain specific statistical language model from rule based grammar specifications [P] . 美国专利： US7346495B1 . 2008-03-18

机译：从基于规则的语法规范中构建领域特定的统计语言模型的方法和系统
5. Method and system for building a domain specific statistical language model fromrule-based grammar specifications [P] . AU7639600A . 2002-04-15

机译：从基于规则的语法规范中构建领域特定的统计语言模型的方法和系统