首页> 中国专利> 单篇文档分析方法和装置

单篇文档分析方法和装置

摘要

本发明提供一种单篇文档分析方法和装置,包括:对文档进行分类;对文档进行实体链接,得到实体链接结果;对文档进行分句、分词处理和词性标注处理,对处理结果分别进行关键词抽取、命名实体识别和实体开放关系抽取,得到关键词抽取结果、命名实体识别结果和开放关系抽取结果;将实体链接结果、关键词抽取结果和命名实体识别结果进行处理,得到实体合并结果;基于实体链接结果进行关系扩展,得到关系扩展结果;根据分句得到的句子和实体合并结果进行共现关系计算,得到共现关系确定结果;基于关系扩展结果、开放关系抽取结果和共现关系确定结果得到文档的分析结果。本发明能够帮助用户对文档进行快速查阅和分析,得到准确全面的分析结果。

著录项

  • 公开/公告号CN113158673A

    专利类型发明专利

  • 公开/公告日2021-07-23

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202110326886.9

  • 申请日2021-03-26

  • 分类号G06F40/295(20200101);G06F40/242(20200101);G06K9/62(20060101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人苗晓静

  • 地址 100084 北京市海淀区双清路30号清华大学

  • 入库时间 2023-06-19 11:57:35

说明书

技术领域

本发明涉及计算机技术领域,尤其涉及一种单篇文档分析方法和 装置。

背景技术

随着信息化社会的发展,人们面对的数据量呈现出井喷式增长, 在大数据时代,如何快捷有效地获取数据信息,已经成为人们面对的 一个迫切需要解决的问题。如何快速从锁定的文档中了解其核心内容, 从而确定该文档是否是自己所需的文档,在人们面对有限时间时获取 更充分有效的信息问题时显得尤为重要。

现有技术中主要是通过确定待分析文档的业务类型,并依据实体 在文档中出现的位置一家实体与实体之间的语法结构,获取实体与实 体之间的关系,并以实体为节点,实体之间的关系为边,构建知识图 谱与分档之间的映射关系。

其中,分析主要是依据文本本身为依据,不能对文档未披露的信 息进行补充,使得用户在看到所进行的文档分析后,可能仍然不知道 该文档的主要内容,或者不明白文档内容的逻辑关系等,即不能使用 户准确而全面地理解文档中的内容。

发明内容

本发明提供一种单篇文档分析方法和装置,用以解决现有技术中 用户不能全面准确而全面理解文档的缺陷,实现帮助用户对文档进行 语义级别的快速查阅和分析,并帮助用户快速定位自己的感兴趣的文 档。

第一方面,本发明实施例提供一种单篇文档分析方法,包括:

获取待进行分析的文档;

对所述文档进行分类;

对所述文档进行实体链接,得到实体链接结果;

对所述文档进行分句处理得到多个句子,并对得到的句子进行分 词处理和词性标注处理;

对分词和词性标注处理后的结果分别进行关键词抽取、命名实体 识别和实体开放关系抽取,得到关键词抽取结果、命名实体识别结果 和开放关系抽取结果;

将实体链接结果、关键词抽取结果和命名实体识别结果进行处理, 得到实体合并结果;

基于关键词抽取结果和命名实体识别结果进行语义要素抽取,得 到语义要素结果;

基于实体链接结果进行关系扩展,得到关系扩展结果;

根据分句得到的句子和实体合并结果进行共现关系计算,得到共 现关系确定结果;

基于关系扩展结果、开放关系抽取结果和共现关系确定结果,得 到单篇文档的分析结果。

进一步地,根据本发明提供的一种单篇文档分析方法,其中,对 得到的句子进行分词处理,包括:

采用规则分词、统计分词、规则和统计混合分词三种方法中的一 种或多种对得到的句子进行分词处理。

进一步地,根据本发明提供的一种单篇文档分析方法,其中,所 述规则分词是指通过维护字典,在切分语句时,将语句的每个字符串 与词表中的词进行逐一匹配,如果匹配成功,则切分,否则不切分; 其中,匹配方法包括正向最大匹配法、逆向最大匹配法以及双向最大 匹配法;

所述统计分词是指统计预设文本,如果相连接的字在不同的文本 中出现次数越多,则说明这些相连接的字为一个词;统计分词方法包 括两步,第一步是建立统计语言模型,第二步是对文本进行词语划分; 其中,统计分词包括有基于隐含马尔科夫HMM、条件随机场CRF 方法;

所述规则和统计混合分词是指先基于词典的方法进行分词,然后 再用统计分词的方法进行辅助。

进一步地,根据本发明提供的一种单篇文档分析方法,其中,所 述对所述文档进行实体链接,包括:

建立词和实体的联合表示模型;

基于所述词和实体的联合表示模型,采用概率实体模型,建立所 述文档中的连续字符与知识库中的实体的链接关系。

进一步地,根据本发明提供的一种单篇文档分析方法,其中,所 述对分词和词性标注处理后的结果进行关键词抽取,包括:

采用词频-逆文档频次算法TF-IDF、TextRank、基于文法规则、 潜在语义分析LSA、潜在语义检索LSI方法,得到关键词词表和每个 词在原文中的位置及重要性。

进一步地,根据本发明提供的一种单篇文档分析方法,其中,所 述对分词和词性标注处理后的结果进行命名实体识别,包括:

采用基于规则的方法、基于特征的方法和基于神经网络的方法中 的一种或多种对分词和词性标注处理后的结果进行命名实体识别。

进一步地,根据本发明提供的一种单篇文档分析方法,其中,将 实体链接结果、关键词抽取结果和命名实体识别结果进行处理,得到 实体合并结果,包括:

确定实体链接结果、关键词抽取结果和命名实体识别结果的并集 作为实体合并结果;

确定实体链接结果、关键词抽取结果和命名实体识别结果的交集 作为实体合并结果。

进一步地,根据本发明提供的一种单篇文档分析方法,其中,基 于关键词抽取结果和命名实体识别结果进行语义要素抽取,得到语义 要素结果,包括:

基于关键词抽取结果确定语义要素中的what要素;

基于命名实体识别结果确定语义要素中的who要素、where要素 和when要素。

进一步地,根据本发明提供的一种单篇文档分析方法,其中,基 于实体链接结果进行关系扩展,得到关系扩展结果,包括:

基于实体链接结果所链接到的背景知识对所述文档中的实体进 行关系扩展,得到关系扩展结果。

第二方面,本发明提供一种单篇文档分析装置,包括:

第一处理模块,用于获取待进行分析的文档;

第二处理模块,用于对所述文档进行分类;

第三处理模块,用于对所述文档进行实体链接,得到实体链接结 果;

第四处理模块,用于对所述文档进行分句处理得到多个句子,并 对得到的句子进行分词处理和词性标注处理;

第五处理模块,用于对分词和词性标注处理后的结果分别进行关 键词抽取、命名实体识别以及实体开放关系抽取,得到关键词抽取结 果、命名实体识别结果以及开放关系抽取结果;

第六处理模块,用于将实体链接结果、关键词抽取结果和命名实 体识别结果进行处理,得到实体合并结果;

第七处理模块,用于基于关键词抽取结果和命名实体识别结果进 行语义要素抽取,得到语义要素结果;

第八处理模块,用于基于实体链接结果进行关系扩展,得到关系 扩展结果;

第九处理模块,用于根据分句得到的句子和实体合并结果进行共 现关系计算,得到共现关系确定结果;

第十处理模块,用于基于关系扩展结果、开放关系抽取结果和共 现关系确定结果,得到单篇文档的分析结果。

本发明提供的一种单篇文档的分析方法和装置,通过对获取的文 档进行分句处理,并对分句后的句子进行分词和词性标注处理。另外, 对获取的文档进行分类,并对获取的文档进行实体链接。然后对分词 和词性标注处理后的结果进行关键词抽取和命名实体识别,继而,结 合实体链接的词汇,对得到词汇结果进行合并。同时基于关键词抽取 结果和命名实体识别结果进行语义要素抽取,得到语义要素结果。此 外,对实体链接结果进行关系扩展,基于分词和词性标注后的结果进 行开放关系抽取,得到开放关系抽取结果;根据分句得到的句子和实 体合并结果进行共现关系确定;基于关系扩展结果、开放关系抽取结 果和共现关系确定结果,得到单篇文档的分析结果。因此,本发明帮 助用户对文档进行语义级别的快速查阅和分析,并帮助用户快速定位 自己的感兴趣的新闻。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见 地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术 人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其他的附图。

图1是本发明提供的单篇文档的分析方法的流程示意图之一;

图2是本发明提供的单篇文档分析方法的流程示意图之二;

图3是本发明提供的单篇文档分析装置的结构示意图;

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发 明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合图1-图2描述本发明的一种单篇文档的分析方法,包括:

步骤100:获取待进行分析的文档。

步骤200:对所述文档进行分类。

步骤300:对所述文档进行实体链接,得到实体链接结果。

步骤400:对所述文档进行分句处理得到多个句子,并对得到的 句子进行分词处理和词性标注处理。

步骤500:对分词和词性标注处理后的结果分别进行关键词抽取、 命名实体识别以及实体开放关系抽取,得到关键词抽取结果、命名实 体识别结果以及开放关系抽取结果。

步骤600:将实体链接结果、关键词抽取结果和命名实体识别结 果进行处理,得到实体合并结果。

步骤700:基于关键词抽取结果和命名实体识别结果进行语义要 素抽取,得到语义要素结果。

步骤800:基于实体链接结果进行关系扩展,得到关系扩展结果。

步骤900:根据分句得到的句子和实体合并结果进行共现关系计 算,得到共现关系确定结果。

步骤1000:基于关系扩展结果、开放关系抽取结果和共现关系 确定结果,得到单篇文档的分析结果。

具体地,步骤100中,获取待分析文档,通过数据挖掘技术获取 各个新闻网站的新闻页面信息,此处的新闻网站可以是专门提供新闻 信息的网站,可以包括国家大型新闻门户(如新华网、人民网等)、商 业门户(新浪新闻、网易新闻等)、地方新闻门户(长江网等)、以及行 业门户网站;还可以包括一些社交平台(新浪微博等)。也包括国外的 主流媒体,例如“BBC、CNN”等,但不限于这些网站。本发明中不 对获取文档的格式进行限定,不对获取文档的主题进行限定等等。

步骤200中对步骤100中获取的文档进行分类处理,如果针对多 篇文章,则对文本按着篇章级别进行分类。分类可以采用决策树分类、 最近邻分类、朴素贝叶斯分类、神经网络、支持向量机、基于深度学 习的分类等方法,每篇新闻都可以得到一个分类。本发明通过使用基 于BERT的深度学习模型对文本进行预训练,得到分类模型,并使用 分类模型对所有新闻篇章进行分类。按着“体育”、“财经”、“科技”、 “军事”、“娱乐”、“健康”、“文化”、“社会”、“教育”、“其 他”共10个分类,获取得到的新闻中标题为“中超-新援双响于汉超 首球曹赟定直红申花3-1当代“为”体育“类别中的一篇。

步骤300中对获取的文档进行实体链接,其中实体链接是指给定 文档和知识库,实体链接旨在识别出文本中的所有实体提及,并在知 识库中找到每个实体提及对应的实体,如果知识库并未收录实体提及 指代的实体,则需将映射到空实体。这里的知识库,又称为知识图谱, 用来描述实体与实体之间的关系,将知识组织为有向图,表示知识图 谱的所有节点,每个节点代表一个实体,实体拥有丰富的信息描述, 例如实体类别、信息框、文本描述等,表示两个节点之间的关系集合。 知识图谱还可被表示为三元组集合。而实体提及表示文本中提及实体 的文本片段,其可能是一个词,也可能是几个连续的词。例如,篮球运动员“迈克尔·乔丹”在不同文档中可能出现不同的实体提及,“乔丹” 或者“空中飞人”等。比如对前文提到的新闻标题为“中超-新援双响于 汉超首球曹赟定直红申花3-1当代”对全文进行实体链接可以得到 其中的重点词汇,同样对上文文本中的某句话“第28分钟元敏诚在 禁区弧顶放倒毕津浩,博拉尼奥斯离门19米任意球直接射门得分, 打进个人加盟申花后的首球。上半场上海申花1比0领先。“该句话 进行实体链接,可以得到“禁区“、“毕津浩“、“博拉尼奥斯“、“申 花“等实体链接结果。我们通过实体链接的功能,对每篇新闻都可以 得到一个词表和每个词在原文中的位置,以及其对应的详细的背景介 绍资料。实体链接后,也可以通过对相应背景资料的分析,得到和对 应实体有一跳关系的实体及其关系。

步骤400中对步骤100中获取的文档进行分句处理,其中分句处 理是按照语法规则对文档中构成一个完整句子的语句分出。比如在中 文中将带有“。”、“?”、“;”和“……”等带有表示句子终结的符号 的句子分解出来。在英文中将“.”、“?”等带有表示句子终结的符合 的句子作为一个完整的句子分解出来。举例来说,来自“新浪”网站, 标题为“中超-新援双响于汉超首球曹赟定直红申花3-1当代”新闻 中“北京时间10月27日晚19点35分,2020年中超联赛第二阶段 第二轮首回合(总第17轮)上海申花和重庆当代的比赛,在昆山体 育中心开始。第15分钟莫雷诺抢球时受伤被迫退场,钱杰给替补上。 第28分钟元敏诚在禁区弧顶放倒毕津浩,博拉尼奥斯离门19米任意 球直接射门得分,打进个人加盟申花后的首球。”分句后结果为“北 京时间10月27日晚19点35分,2020年中超联赛第二阶段第二轮 首回合(总第17轮)上海申花和重庆当代的比赛,在昆山体育中心 开始。”、“第15分钟莫雷诺抢球时受伤被迫退场,钱杰给替补上。”、 “第28分钟元敏诚在禁区弧顶放倒毕津浩,博拉尼奥斯离门19米任 意球直接射门得分,打进个人加盟申花后的首球。”共3句。

继而,对依据步骤400中的分句处理获得句子进行分词和词性标 注。其中分词是指采用一定的方法将一个完整的句子按照语法规则或 者语义进行拆分或肢解,得到独立的符合文档语境的词语、短语、字 (包括单个汉字、单个英文字母等)和标点符号等。其中词性是词汇 基本的语法属性,词性标注是在给定句子中判定每个词的语法范畴, 确定其词性并加以标注的过程即对采用分词方法得到的分词结果按 照语法规则对各个结果标注词性。距离来说,“最终,10人应战的申 花队3比1战胜重庆当代。”,可以得到为精确分词结果为“最终/,/10/ 人/应战/的/申花队/3/比/1/战胜/重庆当代/。”,词性标注结果为“最终d/,wp/10m/人n/应战v/的u/申花队ni/3m/比v/1m/战胜v/重庆 当代ni/。Wp”。其中d代表副词,wp代表标点符号,m代表数词, n代表名字,v代表动词,u代表助词,ni代表机构团队。

其中“重庆当代”是由两个名词构成的复合名词,因此在进分词 时可能出现“重庆”、“当代”以及“重庆当代”三种情形,故而,需 要在分词时采用一定的方法使分词的结果符合上下文语境。

步骤500中,对分词和词性标注后的结果进行关键词抽取和命名 实体识别以及实体开放关系抽取。而关键词抽取是指将文档中对于理 解文档的核心信息具有重要意义的词汇提取出来,用来帮助用户理解 文本的主要信息。比如,对上述标题为“中超-新援双响于汉超首球 曹赟定直红申花3-1当代“的新闻提取关键词可以得到有”申花3-1 当代”、“博拉尼奥斯梅开二度”、“足球”等。

另外,实体识别是指将文档中的所有实体提取出来,其中实体是 表示现实世界中的具体事物,或者是抽象的概念。如人、机构、地点, 或者“机器学习”、“人工智能”等。区别与大多数研究中的区别于大 多数研究中的“命名实体”,本文中指的实体包括命名实体(主要指人 物、组织机构、地点)、普通实体(如电影、书籍、歌曲、文化习俗、 食物、材料等)和抽象概念(产生于人类抽象思维的无实物形态的概 念)。在知识库中,一个实体可能对应多个概念,如,迈克尔·乔丹在 维基百科中既属于类别"篮球运动员",又属于类别“总统自由勋章获得 者”。其中的实体识别是指识别文本中具有特定意义的实体,主要包 括人名、地名、机构名、专有名词等。举例说明,对上述标题为“中 超-新援双响于汉超首球曹赟定直红申花3-1当代”的新闻进行实体 识别可以得到组织机构有“上海申花”、“重庆当代”等,人名有“博 拉尼奥斯”、“曹赟定”等,地点有“昆山体育中心”、“禁区”等。

同时,基于分词和词性标注后的结果进行开放关系抽取,得到开 放关系抽取结果。开放关系抽取是指不需要预先定义关系,而是使用 实体对上下文中的一些词语来描述实体之间的关系。例如“姚明出生 于上海”中,开放关系抽取系统的抽取结果就是(姚明,出生于,上 海),其中“姚明”和“上海”是存在关系的实体对,“出生于”代表 关系。

步骤600中对步骤300中实体链接得到的词汇与步骤400中关 键词抽取和命名实体识别得到结果进行实体合并处理。

步骤700中对步骤500中得到的关键词抽取结果和命名实体识 别结果进行语义要素抽取。其中,要素抽取时识别出新闻文档中描述 的与新闻事件相关的要素信息(包括when(何时)、where(何地)、 what(何事)、who(何人)、why(为何)、how(如何))。同样,以 上文中的标题为“中超-新援双响于汉超首球曹赟定直红申花3-1当 代”的新闻进行命名实体识别的结果中可以得到Who可以从人名和 组织机构名得到“上海申花”、“重庆当代”、“博拉尼奥斯”、“曹赟定” 等;Where可以从地点等得到“昆山体育中心”、“禁区”等;When 是从原始文本中抽取到“10月27日晚19点35分”、“2020年”、“第 15分钟”等,从关键词提取的结果中可以得到what有“博拉尼奥斯 梅开二度”等。

继而,在步骤800中,对实体链接结果进行关系扩展,具体说来, 通过关系扩展,将实体链接中的背景知识带入实体之中,使得以前只 能在文本之中的实体之间构建关系的范围得以扩展到相应的背景知 识之中,因此,够给用户提供更加全面和精确信息。举例说明,美国 篮球巨星“詹姆斯”,在该实体的背景知识中“勒布朗·詹姆斯(LeBron James),全名勒布朗·雷蒙·詹姆斯(LeBron Raymone James),1984 年12月30日出生于美国俄亥俄州阿克伦,美国职业篮球运动员, 司职小前锋,绰号“小皇帝”,效力于NBA洛杉矶湖人队。詹姆斯在 2003年NBA选秀中于首轮第1顺位被克利夫兰骑士队选中,在2009 年与2010年蝉联NBA常规赛最有价值球员(MVP)。2010年,詹姆 斯转会至迈阿密热火队。2011年,依靠在国际体坛上的知名度,詹 姆斯与芬威体育集团达成合作协议,他成了利物浦足球俱乐部的全球独家高级形象代表,而报酬则是利物浦的若干股权。2012年,詹姆 斯得到NBA个人生涯的第3座常规赛MVP,第1个总冠军和总决赛 MVP,并代表美国男篮获得了伦敦国际顶级赛事的金牌,追平了迈克 尔·乔丹在1992年所创的纪录。2013年,詹姆斯夺得第4个常规 赛MVP、第2个NBA总冠军和第2个总决赛MVP,实现两连冠。2014 年,詹姆斯回归骑士。2016年,詹姆斯带领骑士逆转战胜卫冕冠军 勇士夺得队史首个总冠军和个人第3个总决赛MVP。2018年7月10日,詹姆斯正式与湖人签下4年1.53亿美元的合同。2019-20赛季, 詹姆斯当选NBA助攻王,夺得第4次总冠军以及个人第4个总决赛 MVP。詹姆斯篮球智商极高、突破犀利,拥有出色的视野和传球技术, 被认为是NBA有史以来最为全能的球员之一。2019年福布斯100名 人榜,詹姆斯排名第17位。2020年12月27日,詹姆斯当选2020 美联社最佳男运动员。”由上可知,通过实体链接将实体“詹姆斯” 的关系扩展到与实体“利物浦”、“迈克尔〃乔丹”、“洛杉矶湖人”“克 利夫兰骑士队”等实体之间的关系,这些关系不一定是实体“詹姆斯” 所处的文档中能够体现出来的关系,因此通过实体链接将背景知识与 实体“詹姆斯”结合在一起,实现对实体关系的扩展。

步骤900中,根据分句得到的句子和实体合并结果进行共现关系 处理。共现关系是指两个实体处于一个句子或者实体合并后的结果之 中,两个实体呈现出共同出现的状态。比如,上述新闻“中超-新援 双响于汉超首球曹赟定直红申花3-1当代”中“第82分钟马尔西尼 奥打算对秦升人球分过,结果秦升把马尔西尼奥撞翻吃到黄牌。”该 句中有“马尔西尼奥”和“秦升”等实体,该两个实体在一句话之中, 既可以得到两者为共现关系。另外,按照步骤700的开放关系抽取方 法,对该句进行开放关系抽取可以得到(马尔西尼奥,撞翻,秦升), 其中“马尔西尼奥”和“秦升”是存在关系的实体对,“撞翻”代表 关系。

步骤1000中,基于关系扩展结果、开放关系抽取结果和共现关 系结果确定单篇文档的分析结果。即通过将上述关系扩展结果、开放 关系抽取结果、以及共线关系结果三者进行实体关系计算,得到该片 文档的全面而概括的内容,本发明抽取的实体之间关系,包括以下三 大类:第一类是语料(篇章)级关系抽取;第二类是句子级别关系, 即为从一个句子中判别两个实体间是何种语义关系;第三类是从链接 到的背景知识给出的关系。

其中,对事件文本进行语料级的实体关系抽取,是指从文本的上 下文中抽取相应的两个实体之间的关系,比如事件“2020年10月12 日新闻‘湖人总冠军!湖人时隔十年夺队史第17冠,詹皇获得总决 赛FMVP’”从中可以得出实体“詹姆斯”与实体“湖人”之间的关 系是“‘詹姆斯’效力于‘湖人’”。

其中对事件文本进行句子级的实体关系抽取,是指对事件文本中 呈现语法状态的句子中表现的两个实体之间的关系,即从一个句子中 判断两个实体间是何种关系。举例来说,句子“詹姆斯效力于洛杉矶 湖人队”可以得到的两个实体为“詹姆斯”以及“洛杉矶湖人”而这 两个实体之间的关系为“詹姆斯”“效力于”“洛杉矶湖人队”。

而对多个事件从实体链接得到的实体链接结果进行实体关系抽 取,即实体之间的关系并不能从事件文本或句子中获取,但是在实体 的背景知识中存在两个实体之间的关系的信息,比如“詹姆斯”这一 实体的背景知识中“2011年,依靠在国际体坛上的知名度,詹姆斯 与芬威体育集团达成合作协议,他成了利物浦足球俱乐部的全球独家 高级形象代表,而报酬则是利物浦的若干股权。”可以获知,实体“詹 姆斯”与实体“利物浦”之间的关系是“詹姆斯”是“利物浦”的一 个股东。

通过采用这三种判断实体之间关系的方式,可以充分而全面地表 现不同实体之间的关系,使读者能够获得更加全面的信息。

本发明提供的一种单篇文档的分析方法和装置,通过对获取的文 档进行分句处理,并对分句后的句子进行分词和词性标注处理。然后 对分词和词性标注处理后的结果进行实体链接、关键词抽取和命名实 体识别,继而,对得到词汇结果进行合并。同时基于关键词抽取结果 和命名实体识别结果进行语义要素抽取,得到语义要素结果。此外, 对实体链接结果进行关系扩展,基于文档的实体对、文中的词语以及 要素结果进行开放关系抽取;根据分句得到的句子和实体合并结果进 行共现关系确定;基于关系扩展结果、开放关系抽取结果和共现关系 确定结果,得到单篇文档的分析结果。因此,本发明帮助用户对文档 行语义级别的快速查阅和分析,并帮助用户快速定位自己的感兴趣的 新闻。

进一步地,在本发明的一个实施例中,对得到的句子进行分词处 理,包括:

采用规则分词、统计分词、规则和统计混合分词三种方法中的一 种或多种对得到的句子进行分词处理。

进一步地,所述规则分词是指通过维护字典,在切分语句时,将 语句的每个字符串与词表中的词进行逐一匹配,如果匹配成功,则切 分,否则不切分;其中,匹配方法包括正向最大匹配法、逆向最大匹 配法以及双向最大匹配法。

所述统计分词是指统计预设文本,如果相连接的字在不同的文本 中出现次数越多,则说明这些相连接的字为一个词;统计分词方法包 括两步,第一步是建立统计语言模型,第二步是对文本进行词语划分; 其中,统计分词包括有基于隐含马尔科夫HMM、条件随机场CRF 方法。

所述规则和统计混合分词是指先基于词典的方法进行分词,然后 再用统计分词的方法进行辅助。

进一步地,根据本发明提供的一种单篇文档分析方法,其中,对 获取的文档进行实体链接,包括:

建立词和实体的联合表示模型。

基于所述词和实体的联合表示模型,采用概率实体模型,建立所 述文档中的连续字符与知识库中的实体的链接关系。

所述词和实体的联合表示模型包括skip-gram模型、知识库模型 和锚文本上下文模型的组合;相应地,建立词和实体的联合表示模型, 包括:

建立skip-gram模型,通过预测词的相邻词学习给定文本语料中 词的表示;

建立知识库模型,通过预测目标实体相邻的实体来学习实体的表 示;

建立锚文本上下文模型,将锚文本替换为相应的实体,预测该实 体周围下文的词,将词和实体映射到同一个语义空间中;

在对所述词和实体的联合表示模型进行训练时,所述词和实体的 联合表示模型的总目标为最大化三个模型目标函数的线性组合。

进一步地,基于所述词和实体的联合表示模型,采用概率实体模 型,建立所述文档中的连续字符与知识库中的实体的链接关系,包括:

给定一个实体提及m

根据实体e,生成出实体提及m

生成实体提及m

其中,给定输入文档D和实体提及m

其中,每个实体提及对应的生成过程是相互独立的,其中

P(e)是实体的先验分布,将实体的先验分布定义为在整个数据集上 的先验分布;为了控制在不同领域先验不同而带来的影响,引入了影 响因子α:

其中,A

其中,

将词向量对应的词汇表提前建立一个Aho-Corasick索引,直接使 用Aho-Corasick算法匹配实体提及上下文中的词而不需要进行分词 操作;

P(N|e)是给定实体e的上下文实体的概率分布;

其中,计算实体一致性的方法包括:找到当前处理的文档中初始 的无歧义的实体,加入初始化的无歧义实体集合N,确定先验概率 P^(e|m)>θ的实体为无歧义实体,其中,P^(e|m)=|A

按照从左向右或者从简单到复杂的顺序处理发现实体的提及 {m

其中,E

具体地,实体链接,给定文档和知识库,实体链接旨在识别出文 本中的所有实体提及,并在知识库中找到每个实体提及对应的实体, 如果知识库并未收录实体提及指代的实体,则需将映射到空实体。实 体链接任务一般分为三个步骤:实体发现、候选实体生成和候选实体 消歧。实体发现旨在识别出文档中的所有实体提及,候选实体生成则 为每个实体提及找到其可能指代的知识库实体,称为候选实体集。候 选实体消歧则是确定实体提及所指代的知识库实体。

本发明使用一种词和实体的联合表示模型。该模型主要基于 skip-gram模型。Skip-gram最先被提出来学习词的嵌入式表示,其中 心思想是用目标词预测其上下文的词。本发明使用的词和实体的联合 表示模型基于skip-gram模型有三个部分:1)常规的skip-gram模型, 通过预测词的相邻词学习给定文本语料中词的表示;2)知识库模型, 通过预测目标实体相邻的实体来学习实体的表示;3)锚文本上下文 模型,将锚文本替换为相应的实体,预测该实体周围下文的词,将词 和实体映射到同一个语义空间中。该联合表示模型在训练时,模型的 总目标为最大化三个模型目标函数的线性组合。

同时,本发明可以将实体链接的过程看做是一个生成式的过程。 给定一个实体提及mi,首先,根据实体的从知识库KB中找出一个 相关实体e,然后,根据实体e,生成出实体提及mi的上下文,最后, 生成实体提及mi中的其他实体。因此,给定输入文档D和实体提及mi,找出知识库中mi的对应实体的问题可以被推断为如式1的形式:

本发明假设每个实体提及对应的生成过程是相互独立的,其中

给定输入文档D和实体提及mi,最终的知识库中对应的实体是 最大化后验概率P(ei|mi,D)的实体,因此,可以形式化为2:

P(e)是实体的先验分布。本发明将实体的先验分布定义为在整个 数据集上的先验分布,即本发明是在电力客服领域的先验分布。在大 规模的语料库中,一个实体被提及的次数越多,那么这个实体可能越 被人们所熟知。然而,在不同的领域中,实体的先验概率可能是不同 的,如在电力客服领域中,词语"系统内部过电压"指代电力客服领域 “电力系统内容过电压”的概率就比在开放领域中更大。因此,为了 控制在不同领域先验不同而带来的影响,本发明引入了一个影响因子 α,如式3。

其中,Ae,*是指向实体e的锚文本集合,A*,*是KB中所有锚文 本的集合。α=0表示实体先验为1,即其取值对后验概率P(e|m)没有 任何影响,α=1表示先验概率不受任何控制。

其中,

P(N|e)是给定实体e的上下文实体的概率分布。在有关联的上下 文中,如一篇新闻,实体通常属于相同的话题,而且这些实体通常在 语义空间中比较接近。因此,这个分布也可以看做是实体的话题一致 性的分布。本发明设计了一个两步的计算实体一致性的方法。首先, 本发明找到当前处理的文档中初始的无歧义的实体,加入初始化的无 歧义实体集合N,本发明定义先验概率P^(e|m)>θ的实体为无歧义实 体,其中,P^(e|m)=|Ae,m|/|A*,m|,在系统中,本发明选取了θ=0.95; 然后,本发明按照从左向右(Left to Right,L2R)或者从简单到复杂 (Simple to Complex,S2C)的顺序处理发现到的实体的提及{m1,m2,, m|M|},每次处理得到一个已消歧的实体后,加入集合N,集合N的 向量表示为其中所有实体向量的平均,即式5:

其中,EN表示无歧义的实体。P(N|e)通过集合N的向量和候 选实体的向量的余弦相似度计算。本发明发现S2C和L2R的处理顺 序带来的结果之差并不明显,考虑到S2C的顺序还要进行一次排序, 因此在具体实现时本发明采用了L2R的顺序。

在本实施例中,需要说明的是,实体链接,给定文档和知识库, 实体链接旨在识别出文本中的所有实体提及,并在知识库中找到每个 实体提及对应的实体,如果知识库并未收录实体提及指代的实体,则 需将映射到空实体。

在本实施例中,实体链接这一部分,对于实体发现的结果{m

下面对词和实体的联合表示进行解释和说明。本实施例使用一种 词和实体的联合表示模型。该模型主要基于skip-gram模型。Skip-gram 最先被提出来学习词的嵌入式表示,其中心思想是用目标词预测其上下 文的词。本发明使用的词和实体的联合表示模型基于skip-gram模型有三 个部分:1)常规的skip-gram模型,通过预测词的相邻词学习给定文本 语料中词的表示;2)知识库模型,通过预测目标实体相邻的实体来学习 实体的表示;3)锚文本上下文模型,将锚文本替换为相应的实体,预测 该实体周围下文的词,将词和实体映射到同一个语义空间中。

(1)词表示学习

给定一个包含T个词的词序列w

其中,c是上下文窗口的大小,w

其中,W是包含所有词的集合,V

(2)知识库模型

在电力客服知识库中,每一个实体都有链接到其它实体的链接, 本发明称之为“外链”。本发明使用实体之间的外链关系来学习实体之 间的相关度。另一个度量实体之间相关度的方法是维基链接度量法 (Wikipedia Link-based Measure,WLM),该方法被应用作为实体链接 的特征。WLM按照下式计算:

其中,E是知识库KB中的实体,C

类似的,条件概率P(e

(3)锚文本上下文模型

如果只是将词的skip-gram模型和知识库模型拼接起来,词和实 体并不在一个向量空间中,因此,可以利用锚文本,将锚文本替换为 其表示的实体,基于skip-gram模型,用该实体预测其上下文中的词, 该模型的目标函数为下式:

其中,A是锚文本集合,Q是锚文本周围的上下文的词的集合。 在训练时,模型的总目标为最大化三个模型目标函数的线性组合,如 下式所示:

L=L

下面对于概率实体模型进行详细介绍,可以将实体链接的过程看 作是一个生成式的过程。给定一个实体提及m

本实施例假设每个实体提及对应的生成过程是相互独立的,其中

在本实施例中,给定输入文档D和实体提及m

P(e)是实体的先验分布。本实施例将实体的先验分布定义为在整个 数据集上的先验分布,例如可以是在电力客服领域的先验分布。在大 规模的语料库中,一个实体被提及的次数越多,那么这个实体可能越 被人们所熟知。然而,在不同的领域中,实体的先验概率可能是不同 的,如在电力客服领域中,词语"系统内部过电压"指代电力客服领域“电 力系统内容过电压”的概率就比在开放领域中更大。因此,为了控制在 不同领域先验不同而带来的影响,本实施例引入了一个影响因子α,如 下式:

其中,A

其中,

P(N|e)是给定实体e的上下文实体的概率分布。在有关联的上下 文中,如一篇新闻,实体通常属于相同的话题,而且这些实体通常在 语义空间中比较接近。因此,这个分布也可以看做是实体的话题一致 性的分布。本实施例设计了一个两步的计算实体一致性的方法。首先, 本发明找到当前处理的文档中初始的无歧义的实体,加入初始化的无 歧义实体集合N,本实施例定义先验概率P^(e|m)>θ的实体为无歧义 实体,其中,P^(e|m)=|A

其中,E

此外,下面对关于结果修剪的部分进行解释和说明。在经过实体 发现和实体链接的过程之后,对于每个文档D本发明可以得到一个 结果序列R={r1,r2,...,r|M|},ri=(m

在本实施例中,关于实体识别和实体链接数据的举例情况可以参照 下表1和表2。

表1实体识别情况

表2实体链接情况

下面分别举个中文和英文的例子,知识库采用在维基百科和百度 百科中,锚文本的数量庞大,的统计数据显示,英文维基页面中的锚 文本约有近一千万条,百度百科中的锚文本约有三百多万条。丰富 的锚文本为实体发现和实体链接提供了充足的数据支撑。通过分别 抽取百度百科和英文维基中的锚文本,构建了锚文本词典。词典中的 每个键可以看做是一个实体的提及,对应的值可以看做是知识库中对 应该提及的实体。

表3部分锚文本词典展示

另外,由于英文维基中还包括消歧页面,即对于一个实体名字, 给出了其可能指代的所有实体,将这一部分数据也加入了英文的锚 文本词典中。最后,得到的锚文本词典的总量为:英文维基的锚文本 词典共有4,843,616条实体提及-实体匹配对,百度百科共有2,895,610条实体提及-实体匹配对。

本发明在所有的锚文本中,应用以下过滤规则进行过滤:其中 length取为1,prob取为0.01,count取为2。(取数范围可以放大)

1)去掉length(m)≤1的锚文本;

2)去掉link_prob(m)≤0.01的锚文本;

3)去掉count(m)≤2的锚文本。

下面举例进行说明,例如对于例子m1为“南京市长江大桥”,m2 为“长江大桥”此时length(m1)和length(m2)分别为7和4,则存在 length(m1)>length(m2),则保留m1。对于例子m1为“电采暖分时电 价”,m2为“电采暖阶梯电价”此时length(m1)和length(m2)都是7,则length(m1)=length(m2),但是link_prob(m1)

对于结果修剪部分,将∈取值为0.0008。(可以将范围放大)“将R按 照r

根据上面的技术方案可知,本实施例设计了一个无监督的基于词 和实体联合表示的生成式概率模型,来解决实体的歧义性。

进一步地,本发明提供的一个实施例中,对分词和词性标注处理 后的结果进行关键词抽取,包括:

本发明可以采用词频-逆文档频次算法(TF-IDF,Term Frequency-InverseDocument Frequency)、TextRank、基于文法规则、 潜在语义分析(Latent SemanticAnalysis,LSA)、潜在语义检索(Latent Senmantic Index,LSI)等方法,可以得到一个关键词词表,和每个 词在原文中的位置及重要性。

进一步地,本发明提供的一个实施例中,对分词和词性标注处理 后的结果进行命名实体识别,包括:

采用基于规则的方法、基于特征的方法和基于神经网络的方法中 的一种或多种对分词和词性标注处理后的结果进行命名实体识别。

进一步地,本发明提供的一个实施例中,将实体链接结果、关键 词抽取结果和命名实体识别结果进行处理,得到实体合并结果,包括:

确定实体链接结果、关键词抽取结果和命名实体识别结果的并集 作为实体合并结果;

确定实体链接结果、关键词抽取结果和命名实体识别结果的交集 作为实体合并结果。

具体地,针对实体链接、关键词抽取和命名实体识别抽取出来的 词汇交叉情况,所有得到的实体进行合并,我们针对词内的重叠以规 则进行处理。例如原始句子为“ABCDEFGHIJ”,其中每个字母代表 一个字,例如其中实体链接链接到的词为“DEFG”,关键词或者命名 实体识别提取为CD,则将结果修正为CDEFG,关键词或者命名实体 识别为CDEFG,则将结果修正为CDEFG,关键词或者命名实体识别 为CDEFGH,则将结果修正为CDEFGH,关键词或者命名实体识别 为DE,则将结果修正为DEFG,关键词或者命名实体识别为DEFG, 则将结果为DEFG。即表现为确定实体链接、关键词抽取和命名实体 识别得到的词汇结果的并集作为实体合并结果。

若关键词或者命名实体识别为DEFGH,则将结果为DEFG,关 键词或者命名实体识别为EF,则将结果修正为EF,关键词或者命名 实体识别为EFG,则将结果修正为EFG。举例说来,使用实体链接 结果得到有“中超联赛”,根据之前设置的规则,我们保留为“中超 联赛”,我们对关键词抽取得到的结果进行修正且补充知识,文本中 的“中超联赛”由实体链接中考虑上下文内容可以得到是足球领域的 “中国足球超级联赛”,而关键词可能只能得到是“中超”,而“中超” 可能指的是“中国排球超级联赛”、“中国羽毛球超级联赛“等赛事,则关键词则变为“中国足球超级联赛”,实体链接功能对关键词提取 功能提供了消歧。其下级联赛分别是中国足球协会甲级联赛、中国足 球协会乙级联赛及中国足球协会会员协会冠军联赛。”背景知识。即 通过实体链接将中实体中的“中超联赛”是指“中国足球超级联赛”, 而关键词中的“中超”可能指的是“中国排球超级联赛”、“中国羽毛 球超级联赛“等赛事,即呈现多个子集,但是在本文档中,最终确定 的“中超”指的是“中国足球超级联赛”,表现为对实体链接、关键 词抽取和命名实体识别得到的词汇结果的交集作为实体合并结果。

进一步地,本发明提供的一个实施例中,基于关键词抽取结果和 命名实体识别结果进行语义要素抽取,得到语义要素结果,包括:

基于关键词抽取结果确定语义要素中的what要素。

基于命名实体识别结果确定语义要素中的who要素、where要素 和when要素。

具体地,对于对上述标题为“中超-新援双响于汉超首球曹赟定 直红申花3-1当代“的新闻提取关键词可以得到有“申花3-1当代”、 “博拉尼奥斯梅开二度”、“足球”等。对上述新闻进行实体识别可以 得到组织机构有“上海申花”、“重庆当代”等,人名有“博拉尼奥斯”、 “曹赟定”等,地点有“昆山体育中心”、“禁区”等。从原始文本中 抽取到“10月27日晚19点35分”、“2020年”、“第15分钟”等。 由上可知,从关键词提取中得到的三个关键词属于what的内容。而 实体识别中的上海申花”、“重庆当代”等,人名有“博拉尼奥斯”、 “曹赟定”等则是who,而“昆山体育中心”则属于where。同时, “10月27日晚19点35分”、“2020年”、“第15分钟”则是属于when 的内容。

进一步地,本发明提供的实施例中,基于实体链接结果进行关系 扩展,得到关系扩展结果,包括:

基于实体链接结果所链接到的背景知识对所述文档中的实体进 行关系扩展,得到关系扩展结果。

举例说明,在“申花”的实体链接为“上海绿地申花足球俱乐部 “的背景介绍,可以看到“莫雷诺”和“申花”的关系为“效力于”。 在比如上文中“詹姆斯”的实体链接中“2011年,依靠在国际体坛 上的知名度,詹姆斯与芬威体育集团达成合作协议,他成了利物浦足球俱乐部的全球独家高级形象代表,而报酬则是利物浦的若干股权。” 可以获知,实体“詹姆斯”与实体“利物浦”之间的关系是“詹姆斯” 是“利物浦”的一个股东。

具体地,对于上述各个实施例中的方法,举例说明如下:

首先,数据采集,我们采集2020年10月27日0点-24点的“新 浪”、“搜狐”、“网易”、“凤凰网”、“CNN”“BCC”等新闻媒体的新 闻文本。然后,对文本进行分句处理,例如来自“新浪”标题为“中 超-新援双响于汉超首球曹赟定直红申花3-1当代”新闻中“北京时 间10月27日晚19点35分,2020年中超联赛第二阶段第二轮首回 合(总第17轮)上海申花和重庆当代的比赛,在昆山体育中心开始。 第15分钟莫雷诺抢球时受伤被迫退场,钱杰给替补上。第28分钟元 敏诚在禁区弧顶放倒毕津浩,博拉尼奥斯离门19米任意球直接射门 得分,打进个人加盟申花后的首球。”分句后结果为“北京时间10月 27日晚19点35分,2020年中超联赛第二阶段第二轮首回合(总第 17轮)上海申花和重庆当代的比赛,在昆山体育中心开始。”、“第15 分钟莫雷诺抢球时受伤被迫退场,钱杰给替补上。”、“第28分钟元敏 诚在禁区弧顶放倒毕津浩,博拉尼奥斯离门19米任意球直接射门得 分,打进个人加盟申花后的首球。”共3句。然后,分词及词性标注, 分别对所有新闻中的文本使用基于字典和HMM(隐马尔科夫模型) 相结合的方法,例如“最终,10人应战的申花队3比1战胜重庆当 代。”,可以得到为精确分词结果为“最终/,/10/人/应战/的/申花队/3/ 比/1/战胜/重庆当代/。”,词性标注结果为“最终d/,wp/10m/人n/ 应战v/的u/申花队ni/3m/比v/1m/战胜v/重庆当代ni/。Wp”。其中d代表副词,wp代表标点符号,m代表数词,n代表名字,v代表 动词,u代表助词,ni代表机构团队。

然后,使用基于BERT的深度学习模型对文本进行预训练,得到 分类模型,并使用分类模型对所有新闻篇章进行分类。按着“体育”、 “财经”、“科技”、“军事”、“娱乐”、“健康”、“文化”、“社会”、“教 育”、“其他”共10个分类,获取得到的新闻中标题为“中超-新援双响于汉超首球曹赟定直红申花3-1当代“为”体育“类别中的一篇。

然后对全文进行实体链接可以得到其中的重点词汇,同样对上段 文本中的某句话“第28分钟元敏诚在禁区弧顶放倒毕津浩,博拉尼 奥斯离门19米任意球直接射门得分,打进个人加盟申花后的首球。 上半场上海申花1比0领先。“该句话进行实体链接,可以得到“禁 区”、“毕津浩”、“博拉尼奥斯”、“申花”等实体链接结果。

然后,我们对文本通过类TF-IDF结合文法规则的方法进行关键 词提取,对所有新闻文本进行关键词提取,其中对上述标题为“中超 -新援双响于汉超首球曹赟定直红申花3-1当代“的新闻提取关键词 可以得到有“申花3-1当代”、“博拉尼奥斯梅开二度”、“足球”等。

然后,我们对文本采用基于规则的方法进行实体识别,其中对上 述标题为“中超-新援双响于汉超首球曹赟定直红申花3-1当代“的 新闻实体识别可以得到组织机构有“上海申花”、“重庆当代”等,人 名有“博拉尼奥斯”、“曹赟定”等,地点有“昆山体育中心”、“禁区” 等。

再然后,使用实体链接结果得到有“中超联赛”,根据之前设置 的规则,我们保留为“中超联赛”,我们对关键词抽取得到的结果进 行修正且补充知识,文本中的“中超联赛”由实体链接中考虑上下文 内容可以得到是足球领域的“中国足球超级联赛”,而关键词可能只 能得到是“中超”,而“中超”可能指的是“中国排球超级联赛”、“中 国羽毛球超级联赛”、等赛事,则关键词则变为“中国足球超级联赛”, 实体链接功能对关键词提取功能提供了消歧。“背景知识。在“申花” 的实体链接为“上海绿地申花足球俱乐部“的背景介绍,可以看到“莫 雷诺”和“申花”的关系为“效力于”。

最后进行要素抽取的操作,从命名实体识别的结果中可以得到, Who可以从人名和组织机构名得到“上海申花”、“重庆当代”、“博 拉尼奥斯”、“曹赟定”等;Where可以从地点等得到“昆山体育中心”、 “禁区”等;When是从原始文本中抽取到“10月27日晚19点35分”、“2020年”、“第15分钟”等,从关键词提取的结果中可以得到 what有“博拉尼奥斯梅开二度”等。

针对文本中“第82分钟马尔西尼奥打算对秦升人球分过,结果 秦升把马尔西尼奥撞翻吃到黄牌。”该句中有“马尔西尼奥”和“秦 升”等实体,该两个实体在一句话之中,既可以得到两者为共现关系。 对该句进行开放关系抽取可以得到(马尔西尼奥,撞翻,秦升),其中“马尔西尼奥”和“秦升”是存在关系的实体对,“撞翻”代表关 系。

下面对本发明提供的单篇文档分析装置进行描述,下文描述的单 篇文档分析装置与上文描述的单篇文档分析方法可相互对应参照。

结合图3说明,本发明实施例中提供一种单篇文档分析装置,包 括:

第一处理模块30,用于获取待进行分析的文档。

第二处理模块31,用于对所述文档进行分类。

第三处理模块32,用于对所述文档进行实体链接,得到实体链 接结果。

第四处理模块33,用于对所述文档进行分句处理得到多个句子, 并对得到的句子进行分词处理和词性标注处理。

第五处理模块34,用于对分词和词性标注处理后的结果分别进 行关键词抽取、命名实体识别以及实体开放关系抽取,得到关键词抽 取结果、命名实体识别结果以及开放关系抽取结果。

第六处理模块35,用于对实体链接结果、关键词抽取结果和命 名实体识别结果进行处理,得到实体合并结果。

第七处理模块36,用于基于关键词抽取结果和命名实体识别结 果进行语义要素抽取,得到语义要素结果。

第八处理模块37,用于基于实体链接结果进行关系扩展,得到 关系扩展结果。

第九处理模块38,用于根据分句得到的句子和实体合并结果进 行共现关系计算,得到共现关系确定结果。

第十处理模块39,用于基于关系扩展结果、开放关系抽取结果 和共现关系确定结果,得到单篇文档的分析结果。

由于本发明实施例提供的装置,可以用于执行上述实施例所述的 方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参 见上述实施例的介绍。

图4示例了一种电子设备的实体结构示意图,如图4所示,该电 子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)830和通信总线440,其中,处理器410, 通信接口420,存储器430通过通信总线440完成相互间的通信。处 理器410可以调用存储器430中的逻辑指令,以执行上述各实施例提 供的单篇文档分析方法。

此外,上述的存储器430中的逻辑指令可以通过软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可 读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者 网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而 前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟 或者光盘等各种可以存储程序代码的介质。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上 存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各 实施例提供的单篇文档分析方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号