首页> 中国专利> 一种基于知识图谱的税收优惠政策推荐方法及其系统

一种基于知识图谱的税收优惠政策推荐方法及其系统

摘要

一种基于知识图谱的税收优惠政策推荐方法及其系统,其特征在于,所述方法包括以下步骤:步骤1,根据税收优惠政策、纳税人信息以及期望推荐方式的信息特征,预先生成知识图谱数据模板;步骤2,根据接收到的所述税收优惠政策、所述纳税人信息,基于规则解析算法,生成所述税收优惠政策与所述纳税人信息之间的关联关系,并实现知识图谱的构建;步骤3,基于所述知识图谱数据和推荐策略生成基于纳税人的推荐信息,并将所述推荐信息推荐至相应纳税人。本次发明针对的是税务服务中提高纳税品质服务的领域,其目的是采用最新的知识图谱技术,通过图计算为纳税人推荐合适税收优惠政策,同时结合纳税人已经享受的纳税信息服务来寻找纳税人应享受而未享受的税收优惠政策。

著录项

  • 公开/公告号CN112434224A

    专利类型发明专利

  • 公开/公告日2021-03-02

    原文格式PDF

  • 申请/专利权人 神州数码信息系统有限公司;

    申请/专利号CN202011424149.4

  • 发明设计人 江军;朱淞鹤;

    申请日2020-12-08

  • 分类号G06F16/9535(20190101);G06F16/958(20190101);G06F16/215(20190101);G06F16/31(20190101);G06F16/36(20190101);G06Q40/00(20120101);G06Q50/26(20120101);

  • 代理机构11689 北京智绘未来专利代理事务所(普通合伙);

  • 代理人赵卿

  • 地址 100194 北京市海淀区西北旺东路10号院(东区)18号楼3层101-307

  • 入库时间 2023-06-19 10:05:17

说明书

技术领域

本发明涉及一种推荐方法,更具体地,涉及一种基于知识图谱的税收优惠政策推荐方法及其系统。

背景技术

随着税务机关放管服改革的逐步深入,提升纳税服务质量已是税务机关的工作目标之一。现实情况下很多纳税人对于税务业务、政策理解不深,即使税务机关通过网站通知、公告等方式向纳税人宣传税收优惠政策,仍会存在纳税人对政策不够理解而导致优惠政策不能及时享受的情况。另一方面,虽然税务机关也向纳税人推送或宣传相关优惠政策,但由于是针对所有群体的,精准程度不够影响了税收政策宣传效果。同时,相关政策往往是在政策出台时进行宣传,并不会新办企业进行专门宣讲,新办企业往往是通过自行政策学习以及税务咨询方式了解可享的税收政策优惠情况,效果较差。

如果能够提供一种税收优惠政策的推荐,向符合条件的企业自动推送相关优惠政策,就能够有助于纳税人对税收优惠政策的应享尽享,使得税务部门将减税降费的政策落到实处,并有效提升纳税服务满意度。

目前,推荐问题的本质就是通过信息过滤这一重要手段,实现从真实生活中抽象出来的一个信息与另一信息之间的准确关联。现有技术中,推荐算法通常存在着如下问题:1、当交互信息具有稀疏性时,利用少量已观测数据来预测大量未知信息会增加算法的过拟合风险;2、对于新增信息,无法准确的建模和推荐,即造成冷启动。

随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(KG,Knowledge Graph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。通常来说,知识图谱旨在描述现实世界中存在的实体以及实体之间的关系,随着人工智能技术的发展和应用,知识图谱已经被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。

然而,现有技术中,还未具有一种将知识图谱应用于推荐算法中从而解决税务优惠政策推荐的技术方案。

发明内容

为解决现有技术中存在的不足,本发明的目的在于,提供一种基于知识图谱的税收优惠政策推荐方法及其系统,通过为税务优惠政策和纳税人信息构建知识图谱,从而获得更加准确可靠的政策推荐。

本发明采用如下的技术方案。本发明第一方面涉及一种基于知识图谱的税收优惠政策推荐方法,包括以下步骤:步骤1,根据税收优惠政策、纳税人信息以及期望推荐方式的信息特征,预先生成知识图谱数据模板,知识图谱数据模板中定义节点类型和节点关系;步骤2,根据接收到的税收优惠政策、纳税人信息,基于规则解析算法,生成税收优惠政策与纳税人信息之间的关联关系,并将纳税人信息、税收优惠政策和关联关系存储至图数据库中以实现知识图谱的构建;步骤3,基于知识图谱数据和推荐策略生成基于纳税人的推荐信息,并将推荐信息推荐至相应的纳税人。

优选地,知识图谱数据模板中定义的节点类型包括纳税人节点、政策节点、标签节点、错误信息节点和日志节点;知识图谱数据模板中定义的节点关系包括归属关系、适用关系、享受关系和已享受关系。

优选地,纳税人节点用于存储纳税人登记序号、纳税人名称、纳税人识别号;政策节点用于存储政策编号、政策名称、政策内容、政策规则;标签节点用于存储标签编号、标签类型;日志节点用于存储系统操作、日志编号、日志修改时间;错误信息节点用于存储系统错误信息,其中包括错误信息内容、错误时间、错误记录数、错误函数名。

优选地,归属关系从纳税人节点指向标签节点,以纳税人登记序号和标签编号为标识;适用关系从政策节点指向标签节点,以政策编号和标签编号为标识;享受关系、已享受关系从所述纳税人节点指向政策节点,以纳税人登记序号、政策编号为标识,分别用于记录纳税人与应当享受的政策之间、纳税人与已经享受的政策之间的关系。

优选地,步骤2还包括:根据接收到的税收优惠政策、纳税人信息的全量数据实现知识图谱的构建;根据接收到的税收优惠政策、纳税人信息的增量数据实现知识图谱的定期更新。

优选地,步骤2还包括:步骤2.1,对税收优惠政策信息数据和纳税人信息数据进行清洗,标记无效数据并舍弃;步骤2.2,对清洗后的数据进行数据格式处理与数据整理,并生成格式数据;步骤2.3,基于信息抽取规则,从格式数据中抽取对应于知识图谱数据模板中节点的数据信息;步骤2.4,将数据信息存储至相应的知识图谱的节点中;步骤2.5,基于政策解析规则生成解析规则树,获取纳税人节点和政策节点之间的享受关系,根据享受关系构建纳税人节点与政策节点之间的享受关系。

优选地,步骤3还包括:推荐策略包括新版企业税收优惠政策推送、纳税人涉税信息变更政策推送、新政策推送、政策到期提醒推送。

优选地,步骤3还包括:将推荐信息推荐至相应的纳税人包括自动推荐和手动推荐。

优选地,步骤3还包括:基于纳税人的推荐信息可以存储于一种基于知识图谱的税收优惠政策推荐系统中;当识别到纳税人的查询时,向纳税人发送相应的推荐信息。

本发明第二方面涉及一种基于知识图谱的税收优惠政策推荐系统,包括系统设置模块、数据处理模块和政策推送模块,其特征在于:系统设置模块,用于根据税收优惠政策、纳税人信息以及期望推荐方式的信息特征,预先生成知识图谱数据模板,知识图谱数据模板中定义了节点类型和节点关系;数据处理模块,用于根据接收到的税收优惠政策、纳税人信息,基于规则解析算法,生成税收优惠政策与纳税人信息之间的关联关系,并将纳税人信息、税收优惠政策和关联关系存储至知识图谱数据模板中以实现知识图谱的构建;政策推送模块,用于基于知识图谱数据和推荐策略生成基于纳税人的推荐信息,并将推荐信息推荐至相应的纳税人。

本发明的有益效果在于,与现有技术相比,本发明中一种基于知识图谱的税收优惠政策推荐方法及其系统,由于其采用的知识图谱具有精准性、多样性和可解释性等特征,可将知识图谱作为一种推荐系统的辅助信息能够很好地增强推荐算法的效率和信息挖掘能力,能够丰富算法中对信息的描述能力,从而有效弥补推荐算法中交互信息的稀疏或缺失,实现推荐算法的自启动。运用工程学技术,本发明可以通过异常处理,并发处理等手段保证脚本的高并发和高可用。另外,通过抽象出API,保证系统能够动态地维护纳税人税收优惠政策知识图谱。

附图说明

图1为本公开一种基于知识图谱的税收优惠政策推荐方法的方法流程图;

图2为本公开一种基于知识图谱的税收优惠政策推荐方法中步骤3的方法流程图;

图3为本公开一种基于知识图谱的税收优惠政策推荐方法中生成享受关系的流程示意图;

图4为本公开一种基于知识图谱的税收优惠政策推荐方法中政策推送的流程示意图;

图5为本公开一种基于知识图谱的税收优惠政策推荐系统的系统架构图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。

本公开第一方面涉及一种基于知识图谱的税收优惠政策推荐方法。图1为本公开一种基于知识图谱的税收优惠政策推荐方法的方法流程图。如图1所示,一种基于知识图谱的税收优惠政策推荐方法,包括步骤1至步骤3。

步骤1,根据税收优惠政策、纳税人信息以及期望推荐方式的信息特征,预先生成知识图谱数据模板,知识图谱数据模板中定义了节点类型和节点关系。

具体的,为了生成知识图谱数据模板,会先依照税收优惠政策、纳税人信息以及期望推荐方式的信息特征来定义模板中的节点和节点之间的相互关系。

通常,可以在生成知识图谱模板之前对上述的信息特征进行分析。例如,分析出税收优惠政策中通常包含的信息内容有政策名称、政策内容和政策规则等。分析出纳税人信息中必定会包括用于识别纳税人身份唯一性的纳税人登记序号,以及纳税人的真实信息,纳税人的识别号等。

根据这些信息特征就可以建立知识图谱的数据模板了。该模板不包含用于推荐的具体数据,仅仅是用于在接收到真实的纳税人信息或政策信息时,可知如何将上述信息以何种结构存储下来。因此,数据模板应当是预先构建的。

本公开一实施例中,在建设知识图谱之前可以进行本体设计以生成知识图谱的数据模板。本体设计是对知识图谱建模的过程,该模型用以约束知识图谱数据的组织方式。通过本体设计,可以明确知识图谱中存在的节点内容,关系组成,属性内容和上下位关系等等信息。本体构建使用protégé工具进行设计,其生成OWL文件可以被python脚本读取从而获得税收优惠政策知识图谱的本体信息。

优选地,知识图谱数据模板中定义的节点类型包括纳税人节点、政策节点、标签节点、错误信息节点和日志节点;知识图谱数据模板中定义的节点关系包括归属关系、适用关系、已享受关系和享受关系。

优选地,纳税人节点用于存储纳税人登记序号、纳税人名称、纳税人识别号。政策节点用于存储政策编号、政策名称、政策内容、政策规则。标签节点用于存储标签编号、标签类型。日志节点用于存储日志编号、日志修改时间。错误信息节点用于存储系统错误信息。

优选地,归属关系从纳税人节点指向标签节点,以纳税人登记序号和标签编号为标识。适用关系从政策节点指向标签节点,以政策编号和标签编号为标识。已享受关系从纳税人节点指向政策节点,以纳税人登记序号、政策项目编号为标识。享受关系从纳税人节点指向政策节点,以纳税人登记序号和政策编号为标识。已享受关系从纳税人节点指向政策节点,以纳税人登记序号和政策编号为标识。

步骤2,根据接收到的税收优惠政策、纳税人信息,基于规则解析算法,生成税收优惠政策与纳税人信息之间的关联关系,并将纳税人信息、税收优惠政策和关联关系存储到知识图谱数据模板中以实现知识图谱的构建。

完成知识图谱数据模板的设计构造之后,即可根据接收到的税收优惠政策信息和纳税人信息生成知识图谱了。

值得说明的是,为了知识图谱的生成,会对税收优惠政策信息和纳税人信息进行清洗和导入。图2为本公开中一种基于知识图谱的税收优惠政策推荐方法中步骤3的方法流程图。其清洗和导入的具体过程如图2所示包括步骤2.1至步骤2.5。

步骤2.1,对税收优惠政策信息数据和纳税人信息数据进行清洗,标记无效数据并舍弃。在清洗的过程中会遍历数据内容,并挑选出原来数据中存在的缺失值和错误值,将缺失值和错误值所在的整行数据标记为无效数据,并将该行数据提前清洗出去,不再将该数据导入到知识图谱中。

步骤2.2,对清洗后的数据进行数据格式处理与数据整理,并生成格式数据。本公开一实施例中,可以使用Neo4j community的4.0.1版本作为知识图谱构建时使用的数据库。在通过Neo4j community进行数据导入时,为避免导入错误,可以对数据进行处理,生成格式数据。例如,删除数据中的某些特殊符号等。这样,就可以保证数据导入数据库的过程中不会出现错误数据。

另外,由于构建知识图谱所使用的结构化和半结构化数据与本体设计中的知识图谱组成结构略有不同,因此需要对数据进行整理,使得数据结构完成对齐。

步骤2.3,基于信息抽取规则,从格式数据中抽取对应于知识图谱数据模板中节点的数据信息。步骤2.2生成的格式数据通常为结构化数据和半结构化数据。在该数据中,可能包含很多无用信息或是整个句子、段落或文章等内容。为了从这些无用的信息中抽取有效的内容,并存储至知识图谱的节点中,则需要确定一个信息抽取规则。

本公开一实施例中,使用的信息抽取规则中包括一个关键词计算公式。公式为

γ=tf

其中,γ是词语的重要性权重,tf

通过上述公式,可以获得税收优惠政策中的关键词等关键信息,并能够将这些关键信息存储至知识图谱的具体信息节点中。

步骤2.4,将数据信息存储至相应的知识图谱的节点中。步骤2.4为数据导入的过程。一实施例中,通过oracle数据库对上述步骤中的数据实体和数据关系进行整理,得到的数据就可以通过python脚本导入到neo4j数据库中。

然而,由于neo4j数据库的底层设计和python语言的效率不高,使得python与neo4j连接的第三方库py2neo的导入效率并不高。为了满足工业级实用性,本发明针对py2neo库中自带的API(Application Programming Interface,应用程序接口)导入效率不高的情况进行优化。优化方式是,将需要导入的数据根据构建好的知识本体来对实体和属性进行规约,生成并将数据暂存在csv格式文件中,实践证明这种导入方式的数据导入效率提高了90%。其中,需要导入生成的数据包含纳税人节点、政策节点、标签节点、归属关系、适用关系等内容。

步骤2.5,基于政策解析规则生成解析规则树,获取纳税人节点和政策节点之间的享受关系,根据享受关系构建纳税人节点与政策节点之间的关联。

具体的,知识图谱的一个核心能力就是知识推理,本发明中纳税人节点和政策节点之间的享受关系并不能通过数据导入直接生成,需要使用知识推理技术。本公开中可以利用现有技术中的方法生成解析规则树。图3为本公开一种基于知识图谱的税收优惠政策推荐方法中生成享受关系的流程示意图。如图3所示,首先,可以读取政策解析规则后,对政策解析规则进行差分并生成规则计算树。然后,读取纳税人节点信息,以及纳税人节点信息与其关联节点的信息,如与标签节点之间的关系信息,根据规则计算树来匹配标签节点与纳税人节点的关系。若标签节点与纳税人节点之间的关系匹配政策规则树时,则建立纳税人节点与政策节点之间的享受关系。若标签节点与纳税人节点之间的关系不匹配政策规则树时,则进行下一节点的检测,直到完成所有节点的检测并生成遍历所有的享受关系。

其中,规则解析算法可以采用现有技术实现的解析算法。例如,将其通过逆波兰式解析之后用手写python栈类来辅助解析,并通过列表存储解析结果,以及通过标签匹配算法来确定纳税人和政策节点之间的享受关系。

步骤3,基于知识图谱数据和推荐策略生成基于纳税人的推荐信息,并将推荐信息推荐至相应的纳税人。

优选地,推荐策略包括新版企业税收优惠政策推送、纳税人涉税信息变更政策推送、新政策推送、政策到期提醒推送。将推荐信息推荐至相应的纳税人包括自动推荐和手动推荐两种常用方式。

通常来说,政策推送系统可以对优惠政策适用群体进行税收优惠政策的精准推送。其中,新办企业税收优惠政策推送是指,针对新设立登记企业,方法会检查纳税人行业、经营范围、已核定的征收品目、资格等信息,在检查其可能享受的税收优惠政策后并向纳税人进行推送。

纳税人涉税信息变更政策推送是指,当纳税人的涉税信息发生变更时,本公开中的方法会按照变更后的涉税信息检查其可能享受的税收优惠政策,并判断此前是否已提醒或是否已经享受,并且针对此前未提醒的税收优惠政策进行推送。另一方面,还可以检查纳税人由于涉税信息发生变更,此前可以享受的税收优惠政策可能不能再享受,此类提醒信息也将向纳税人推送。

新政策推送是指,针对新公布的优惠政策或政策变更向适用人群进行推送。政策到期提醒推送是指,针对即将到期的优惠政策向适用群体进行提醒。上述两种推送通常均为自动推送方式。

除此之外,政策推送方式还可以有更多种的设计,如针对推荐系统中已经注册的所有纳税人进行群体的政策推送等等。其他的政策推送方式,可以按照现有技术实现,此处不再赘述。

优选地,基于纳税人的推荐信息可以存储于一种基于知识图谱的税收优惠政策推荐系统中;当识别到纳税人的查询时,向纳税人发送相应的推荐信息。

推荐的方式不仅限于系统对注册用户的主动推荐,还可以包括用户的信息查询。

可以查询的信息包括纳税人优惠政策享受情况查询和优惠政策推送情况查询。其中,优惠政策推送情况查询主要为查询税收优惠政策的精准推送情况,包括:税收优惠信息推送信息明细查询、税收优惠信息推送信息统计、已提醒未享受的纳税人,即备案纳税人的查询、已提醒且已享受优惠政策的纳税人查询等。纳税人优惠政策享受情况查询包括优惠政策适用群体查询、注册用户的优惠查询、已享受优惠政策查询、应享未享优惠政策查询。其中,优惠政策适用群体查询主要实现按优惠政策查询相应的适用群体或按照群体查询相应的优惠政策,注册用户的优惠查询则提供指定纳税人可享受的减免优惠政策,已享受优惠政策查询、应享未享优惠政策查询。查询后,系统可以针对适用群体,展示其已享受的与尚未享受的优惠信息内容等。

图4为本公开一种基于知识图谱的税收优惠政策推荐方法中政策推送的流程示意图。具体的,推荐步骤如图4所示。首先可以读取待推送的优惠政策信息,此时记录一条优惠政策提醒信息以免推送失败,同时进行推送。其中,推送可以是针对推送平台自身进行的,也可以将推送信息发送至API接口中,例如通过第三方电子税务局的网站将该信息提供给纳税人。当完成推送后,还会生成政策推送日志并记录推送信息,记录完成后视为成功完成推送任务,此时可以更新政策推送的提醒状态为非激活状态。若推送失败,则重新回到推送政策信息的步骤中进行重新推送。另外,推荐的同时还可以使得该方法能够接收到纳税人针对推荐的反馈信息。

本公开第二方面涉及一种基于知识图谱的税收优惠政策推荐系统100。图5为本公开一种基于知识图谱的税收优惠政策推荐系统的系统架构图。如图5所示,系统100包括系统设置模块101,数据处理模块102和政策推送模块103。

系统设置模块101,用于根据税收优惠政策、纳税人信息以及期望推荐方式的信息特征,预先生成知识图谱数据模板,知识图谱数据模板中定义了节点类型和节点关系。

具体的,系统设置模块101还包括税收优惠政策设置、纳税人适用群体标签维护、税收优惠适用群体规则设置、纳税人群体标签分类维护。税收优惠政策精准推送的关键是建立税收政策与纳税人对应关系,对应关系建立主要是依据系统设置环节定义的相关规则。系统设置也是税收政策精准推送的前置环节。

本公开实施例中,在进行设置的过程中会首先进行税收优惠政策设置,其次进行纳税人群体标签维护。纳税人群体标签维护包括纳税人群体标签分类维护与纳税人群体标签维护。考虑到税收政策适用群体涉及标签较多,需要对群体标签进行分类,纳税人群体标签分类维护实现群体分类标签的维护。在标签分类定义后,在指定标签分类下,可以创建相应的纳税人群体标签。最后,还可以对税收政策适用群体进行规则设置,以建立税收政策与适用纳税人群体的对应关系。

同时,系统设置模块101中还可包括权限设置模块,以便于对登录用户进行权限控制,保证不同用户之间数据权限不同,确保不同权限的用户看到能够看到的数据视图种类不同,当前权限的用户只能查看该权限对应的相关信息。

数据处理模块102,用于根据接收到的税收优惠政策、纳税人信息,基于规则解析算法,生成税收优惠政策与纳税人信息之间的关联关系,并将纳税人信息、税收优惠政策和关联关系存储至知识图谱数据模板中以实现知识图谱的构建。

具体来说,该模块负责对税收优惠政策知识图谱的数据加工和处理,保证税收优惠政策知识图谱能够动态地更新。

政策推送模块103,用于基于知识图谱数据和推荐策略生成基于纳税人的推荐信息,并将推荐信息推荐至相应的纳税人。

本公开一实施例中,推荐系统可以采用Python、Neo4j作为基础环境。例如,使用版本号为3.7.4的python,安装之后编辑环境变量并使其生效。同时,可以使用版本号为4.1.1社区版的neo4j,并在安装之后,编辑环境变量并使其生效。

准备好基础环境后,可以将知识图谱所需要的数据编辑成csv文件并保存在指定路径下。该文件可以为多个,具体的,可以包括标签信息csv文件,纳税人信息csv文件,政策信息csv文件,标签与政策关系csv文件。而后,启动python脚本,开始全量数据的导入工作,导入时间视情况而定,但一般不超过5个小时。导入之后,通过浏览器端登录neo4j服务器,并通过neo4j服务器查看数据的导入情况以进行数据验证。对于每天新增的数据,系统还可以通过数据处理脚本自动地对知识图谱进行修改。另外,脚本中还可以包括日志脚本,系统能够将系统操作计入日志,以供管理者随时查看。

本发明的有益效果在于,与现有技术相比,本发明中一种基于知识图谱的税收优惠政策推荐方法及其系统,由于其采用的知识图谱具有精准性、多样性和可解释性等特征,可将知识图谱作为一种推荐系统的辅助信息能够很好地增强推荐算法的效率和信息挖掘能力,能够丰富算法中对信息的描述能力,从而有效弥补推荐算法中交互信息的稀疏或缺失,实现推荐算法的自启动。运用工程学技术,本发明可以通过异常处理,并发处理等手段保证脚本的高并发和高可用。另外,通过抽象出API,保证系统能够动态地维护纳税人税收优惠政策知识图谱。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号