首页> 中国专利> 文本分析方法及文本分析器

文本分析方法及文本分析器

摘要

本发明公开了一种文本分析方法及文本分析器。该方法包括:对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;按照预先构建的分词模型,对特征字串进行分词处理,得到包含字序的分词结果;根据分词结果中的字序进行合并处理,对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;根据预先构建的词性标注模型,对特征词串进行词性标注,得到词性标注结果;确认词性标注结果中包含实体词词性标注,则按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果。应用本发明,可以提高实体词的文本分析准确率。

著录项

  • 公开/公告号CN103077164A

    专利类型发明专利

  • 公开/公告日2013-05-01

    原文格式PDF

  • 申请/专利权人 新浪网技术(中国)有限公司;

    申请/专利号CN201210581448.8

  • 发明设计人 戴明洋;

    申请日2012-12-27

  • 分类号G06F17/27(20060101);

  • 代理机构11321 北京市京大律师事务所;

  • 代理人黄启行;方晓明

  • 地址 100080 北京市海淀区北四环西路58号理想国际大厦20层

  • 入库时间 2024-02-19 18:33:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-18

    专利权的转移 IPC(主分类):G06F17/27 专利号:ZL2012105814488 登记生效日:20230406 变更事项:专利权人 变更前权利人:新浪网技术(中国)有限公司 变更后权利人:新浪技术(中国)有限公司 变更事项:地址 变更前权利人:100080 北京市海淀区北四环西路58号理想国际大厦20层 变更后权利人:100193 北京市海淀区东北旺西路中关村软件园二期(西扩)N-1、N-2地块新浪总部科研楼5层501-502室

    专利申请权、专利权的转移

  • 2016-05-11

    授权

    授权

  • 2013-06-05

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20121227

    实质审查的生效

  • 2013-05-01

    公开

    公开

说明书

技术领域

本发明涉及数据挖掘技术,尤其涉及一种文本分析方法及文本分析器。

背景技术

目前,在自然语言处理技术中,对文本进行词法分析是其他中文信息 处理的基础,例如,目前广泛应用的搜索引擎、机器翻译、语音合成、自 动分类、自动摘要、自动校对等,都需要基于词法分析技术。对语句或文 本进行词法分析的目的有两个:分词及词性标注,分词就是将字与字之间 紧密相连的文本序列按词进行划分,从而将文本序列转化为词语序列;词 性标注在分词的基础上,根据句子的上下文信息,给划分的词语进行词性 标记,例如,将词语标记为动词、名词、副词或形容词等。其中,词是最 小的能够独立活动的有意义的语言成分,在汉语中,词与词之间不存在分 隔符,词本身也缺乏明显的形态标记,因此,中文信息处理就是如何将汉 语的字串分割为合理的词语序列,即分词。

现有的文本分析器,基于规则或基于统计的算法,采用一体化的分词 及词性标注,可以对输入的文本实现分词、词性标注、实体识别等功能, 即对文本进行分词、词性标注、实体识别等功能处理。

现有技术中,在进行一体化的分词及词性标注时,均是在标注语料时, 对分词信息及词性标注信息进行联合标注,即对分词语料与词性标注语料, 采用同一份标注,也就是说,在每个字上,既标注分词信息又标注词性标 注信息,在进行一体化处理后,将处理结果(文本分析结果)输出。

但现有对文本采用一体化的分词及词性标注进行分析时,采用统一的 分词策略对文本进行分词及词性标注后,没有考虑实体词和非实体词对于 分词的差异,即在实际应用中,对于常用的文本分析器,要求对非实体词 采用小粒度分割,而对于实体词,例如,人名、地名、机构名,应该以大 粒度进行分词和词性标注,举例来说,对于非实体词人民大众,进行小粒 度的分词及词性标注后,得到的结果为:人民n;大众n,其中,n表示名 词;而对于实体词,例如,人名、地名、机构名等,需要得到粗粒度的分 词及词性标注结果,举例来说,对于实体词人民大会堂,期望得到粗粒度 的分词及词性标注结果为:人民大会堂nt,其中,nt表示机构名,而非期 望得到小粒度的分词及词性标注结果为:人民n;大会堂n,因为,对于 实体词,小粒度的分词及词性标注结果(人民n;大会堂n)显然与实际 应用(人民大会堂nt)不相一致。

由上述可见,现有的文本分析方法,采用统一的策略对文本进行分析, 没有区分实体词与非实体词,使得实体词的文本分析准确率较低。

发明内容

本发明的实施例提供一种文本分析方法,提高实体词的文本分析准确 率。

本发明的实施例还提供一种文本分析器,提高实体词的文本分析准确 率。

为达到上述目的,本发明实施例提供的一种文本分析方法,包括:

对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预 先设置的字符特征进行特征标注,形成特征字串;

按照预先构建的分词模型,对特征字串进行分词处理,得到包含字序 的分词结果;

根据分词结果中的字序进行合并处理,对合并得到的词按照预先设置 的字符特征进行特征标注,形成特征词串;

根据预先构建的词性标注模型,对特征词串进行词性标注,得到词性 标注结果;

确认词性标注结果中包含实体词词性标注,则按照相邻相同规则,合 并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果。

其中,所述分词模型的预先构建包括:

采集语料;

对语料以字符为单位进行切分处理,对切分得到的字符按照预先设置 的字符特征进行特征标注,形成特征字串;

通过条件随机场CRF算法,对特征字串采用分类标签方式进行训练, 得到分词模型。

其中,所述词性标注模型的预先构建包括:

基于分词模型,进行特征提取,形成词,以词的最后一个字符的字符 特征作为词的字符特征,形成特征词串;

将特征词串分类为实体词以及非实体词,根据预先存储的词性库,分 别提取实体词以及非实体词的特征值,通过CRF算法训练,对实体词以及 非实体词进行词性标注,形成词性标注模型。

其中,所述字符特征包括:汉字、英文字符、数字、时间以及符号;

所述对切分得到的字符按照预先设置的字符特征进行特征标注包括:

对文本中的各字符分别进行字符特征的标注,将各字符及其字符特征 相连,形成特征字串;

所述对合并得到的词按照预先设置的字符特征进行特征标注,包括:

以词的最后一个字符的字符特征作为词的字符特征,对文本中的各词 分别进行字符特征的标注,将各词及其字符特征相连,形成特征词串。

其中,所述对实体词进行词性标注包括:

按照实体词的词性,分别标注实体词中的每个单元词,每个单元词的 词性与实体词的词性相同。

其中,所述方法进一步包括:

如果词性标注结果中不包含实体词词性标注,则直接输出词性标注结 果作为文本分析结果。

一种文本分析器,该文本分析器包括:分词模型模块、词性标注模型 模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注 模块以及实体词合并模块,其中,

分词模型模块,用于预先构建分词模型并存储构建的分词模型;

词性标注模型模块,用于预先构建词性标注模型并存储构建的词性标 注模型;

特征字串生成模块,用于对获取的文本以字符为单位进行切分处理, 对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串, 输出至分词处理模块;

分词处理模块,用于根据分词模型模块中预先构建的分词模型,对接 收的特征字串进行分词处理,得到包含字序的分词结果,输出至特征词串 生成模块;

特征词串生成模块,用于根据接收的分词结果中的字序,进行合并处 理,并对合并得到的词按照预先设置的字符特征进行特征标注,形成特征 词串;

词性标注模块,用于根据词性标注模型模块中预先构建的词性标注模 型,对接收的特征词串进行词性标注,输出词性标注结果至实体词合并模 块;

实体词合并模块,用于判断接收的词性标注结果中是否包含实体词词 性标注,如果是,按照相邻相同规则,合并词性标注结果中包含实体词词 性标注的实体词,得到文本分析结果并输出;如果否,将词性标注结果作 为文本分析结果输出。

较佳地,所述分词模型模块包括:语料采集单元、特征字串生成单元、 分词训练单元以及分词模型存储单元,其中,

语料采集单元,用于采集语料;

特征字串生成单元,用于对语料采集单元采集的语料,以字符为单位 进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注, 形成特征字串,输出至分词训练单元;

分词训练单元,通过CRF算法,对接收的特征字串采用分类标签方式 进行训练,得到分词模型,输出至分词模型存储单元;

分词模型存储单元,用于存储分词训练单元训练得到的分词模型。

较佳地,所述词性标注模型模块包括:特征词串生成单元、词性标注 模型单元以及词性标注模型存储单元,其中,

特征词串生成单元,用于基于分词模型,进行特征提取,形成词,以 词的最后一个字符的字符特征作为词的字符特征,形成特征词串;

词性标注模型单元,用于将特征词串分类为实体词以及非实体词,根 据预先存储的词性库,分别提取实体词以及非实体词的特征值,通过CRF 算法训练,对实体词以及非实体词进行词性标注,形成词性标注模型,输 出至词性标注模型存储单元;

词性标注模型存储单元,用于存储词性标注模型单元形成的词性标注 模型。

较佳地,所述实体词合并模块包括:判断单元以及实体词合并单元, 其中,

判断单元,用于判断接收的词性标注结果中是否包含实体词词性标注, 如果是,将词性标注结果输出至实体词合并单元;否则,将接收的词性标 注结果输出;

实体词合并单元,用于按照相邻相同规则,合并接收的词性标注结果 中包含实体词词性标注的实体词并输出。

由上述技术方案可见,本发明实施例提供的一种文本分析方法及文本 分析器,对获取的文本以字符为单位进行切分处理,对切分得到的字符按 照预先设置的字符特征进行特征标注,形成特征字串;按照预先构建的分 词模型,对特征字串进行分词处理,得到包含字序的分词结果;根据分词 结果中的字序进行合并处理,对合并得到的词按照预先设置的字符特征进 行特征标注,形成特征词串;根据预先构建的词性标注模型,对特征词串 进行词性标注,得到词性标注结果;确认词性标注结果中包含实体词词性 标注,则按照相邻相同规则,合并词性标注结果中包含实体词词性标注的 实体词,得到文本分析结果。这样,通过对分词及词性标注的实体词进行 合并处理,从而可以进行粗粒度的分词及词性标注,使输出结果更符合应 用需求,提高了实体词的文本分析准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,以下将对 实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地, 以下描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员 而言,还可以根据这些附图所示实施例得到其它的实施例及其附图。

图1为本发明实施例文本分析方法流程示意图。

图2为本发明实施例文本分析器结构示意图。

具体实施方式

以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描 述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的 实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性 劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。

现有的文本分析方法,采用统一的策略对文本进行分析,没有区分实 体词与非实体词,即对实体词以及非实体词均采用小粒度进行分词及词性 标注,而在实际应用中,对于实体词,进行分词及词性标注的结果不能满 足应用需求,使得进行分词及词性标注的结果的准确性较低,实体词的文 本分析准确率较低。

本发明实施例中,考虑到分词及词性标注的准确性,对前述提及的应 用来说,具有十分重要的作用。例如,对于包括字、词、句子或段落的原 始文本,互联网应用中数据对分词及词性标注的一般要求是,对于非实体 词,需要得到小粒度的分词及词性标注结果,而对于实体词,例如,人名、 地名、机构名等,需要得到粗粒度的分词及词性标注结果,举例来说,对 于实体词人民大会堂,期望得到粗粒度的分词及词性标注结果为:人民大 会堂nt,其中,nt表示机构名,而非期望得到小粒度的分词及词性标注结 果为:人民n;大会堂n。

基于上述分析和考虑,通过训练以及条件随机场(CRF,Conditional Random Fields)的方法,分别生成分词的语料库及词性标注的语料库,并 对实体词与非实体词的分词及词性标注分别进行相关处理,训练出相关的 分词模型及词性标注模型,从而对于文本中的非实体词,可以进行小粒度 的分词及词性标注,对于文本中的实体词,可以进行粗粒度的分词及词性 标注,提高实体词的分词与词性标注的性能,提升输出的对实体词进行分 词与词性标注的结果的准确性。

图1为本发明实施例文本分析方法流程示意图。本发明实施例中,采 用CRF进行分词及词性标注的概率与路径分析,参见图1,该流程包括:

步骤101,预先构建分词模型以及词性标注模型;

本步骤中,构建分词模型包括:

A11,采集语料;

本步骤中,语料为文本集合,由于在统计自然语言处理中,实际上不 可能观测到大规模的语言实例,因而,可以简单地用文本集合作为替代, 并将文本集合中的上下文关系作为实际语言的上下文关系。

较佳地,采集公开的6个月的人民日报语料。

A12,对语料以字符为单位进行切分处理,对切分得到的字符按照预先 设置的字符特征进行特征标注,形成特征字串;

本步骤中,字符特征包括:汉字(HAN)、英文字符(ALPHA)、数 字(NUM)、时间(TIME)、符号(SIG)以及其他(OTHER)。

特征字串包括:切分得到的字符及其字符特征。例如,语料人民大会 堂,经过切分后,得到切分字:人;民;大;会;堂。五个切分字的字符 特征均为汉字,因而,其特征字串表示为:人HAN;民HAN;大HAN; 会HAN;堂HAN。

对切分得到的字符按照预先设置的字符特征进行特征标注包括:

对文本中的各字符分别进行字符特征的标注,将各字符及其字符特征 相连,形成特征字串。

A13,通过CRF算法,对特征字串采用分类标签(6Tag)方式进行训 练,得到分词模型。

本步骤中,分词模型的训练方式采用6Tag方式,B表示词的开头,即 词首,E表示词的最后一个字,即词尾;M表示词中间最靠近词尾E的字, M1、M2分别表示词中间的第一及第二个字。

其中,实体词(人名、地名、机构)按照小粒度的成词规律进行标注, 小粒度成词标注是指以切分得到的字符及字符特征对文本进行标注,即以 字符为单位,对文本中的实体词和非实体词分别进行字符特征标注。举例 来说,对于文本中包含的机构“人民大会堂”,进行训练得到的分词模型 中,标注为“人HAN B;民HAN E;大HAN B;会HAN M;堂HAN E;”, 而非标注为“人HAN B;民HAN M1;大HAN M2;会HAN M;堂HAN E;”;对于文本中包含的人名,进行训练得到的分词模型中,按照名与姓 分开标注,例如,人名“刘德华”标注为“刘HAN B;德HAN B;华HAN E”,关于文本中的非实体词标注,以切分得到的字符及字符特征进行标注, 详细可参见相关技术文献,在此不再赘述。

本发明实施例中,分词模型以CRF为分类器,以字符特征为特征,利 用CRF算法,采用6Tag方式进行训练,能够给出小粒度的实体词与非实 体词分词结果。

关于CRF算法、采用6Tag方式进行训练的详细流程,具体可参见相 关技术文献,在此不再赘述。

构建词性标注模型包括:

A21,基于分词模型,进行特征提取,形成词,以词的最后一个字符的 字符特征作为词的字符特征,形成特征词串;

本步骤中,根据分词模型中的分词结果,进行特征提取,形成词。例 如,对于分词模型中的“人HAN B;民HAN E;大HAN B;会HAN M; 堂HAN E;”,进行特征提取后,形成词“人民;大会堂”,对于“人民” 以及“大会堂”,词最后一个字“民”、“堂”的字符特征均为汉字,则 形成的特征词串为“人民HAN;大会堂HAN”。

A22,将特征词串分类为实体词以及非实体词,根据预先存储的词性库, 分别提取实体词以及非实体词的特征值,通过CRF算法训练,对实体词以 及非实体词进行词性标注,形成词性标注模型。

本步骤中,词性库中存储有43种词性,例如,名词(n)、动词(vn)、 机构名(nt)、地名(ns)等。

本发明实施例中,每一词在不同的语境中,具有不同的词性,通过提 取实体词以及非实体词的特征值,通过CRF算法训练,可以确定每一词的 词性,其中,对于非实体词,其词性标注与现有技术相同,而对于实体词, 按照实体词的属性,分别标注其中的每个单元词,每个单元词的词性与实 体词的词性相同,例如,均为机构词性(nt)。例如,对于非实体词“人民 大众”,词性标注为“人民HAN n;大众HAN n”,对于实体词“人民大 会堂”,词性标注为“人民HAN nt;大会堂HAN nt”,再例如,实体词“中 国国际广播电台”,词性标注为“中国HAN nt;国际HAN nt;广播HAN nt;电台HAN nt”,而非采用非实体词的词性标注“中国HAN ns;国际HAN n;广播HAN vn;电台HAN n”。

关于提取实体词以及非实体词的特征值,通过CRF算法训练的详细处 理流程,具体可参见相关技术文献,在此不再赘述。

在本发明实施例的文本分析方法中,步骤101只需执行一次,而非在 每次进行文本分析时,都需要执行。

步骤102,对获取的文本以字符为单位进行切分处理,对切分得到的字 符按照预先设置的字符特征进行特征标注,形成特征字串;

本步骤中,对用户输入的文本进行预处理,即以字符为单位,对预先 获取的文本进行切分处理,得到字符,计算其字符特征,并以字符为单位, 对文本中的实体词和非实体词分别进行字符特征标注。

切分得到的字符及其字符特征组成特征字串,例如,对于输入的文本 “人民大会堂”,特征字串为“人HAN;民HAN;大HAN;会HAN;堂 HAN”。

步骤103,按照预先构建的分词模型,对特征字串进行分词处理,得到 包含字序的分词结果;

本步骤中,通过预先存储的分词模型,对形成的特征字串进行分词处 理。例如,对于特征字串“人HAN;民HAN;大HAN;会HAN;堂HAN”, 按照构建的分词模型,进行分词处理,得到分词结果为“人HAN B;民HAN E;大HAN B;会HAN M;堂HAN E”,其中,人为词的词首,民为词 的词尾;大为另一词的词首,会为该另一词的词中,堂为该另一词的词尾。

步骤104,根据分词结果中的字序进行合并处理,对合并得到的词按照 预先设置的字符特征进行特征标注,形成特征词串;

本步骤中,根据接收的分词结果中的字序,合并分词结果,得到合并 的词,并按照预先设置的字符特征进行特征标注,形成特征词串。也就是 说,根据分词结果中的字序,对分词结果进行再次预处理,其中,对合并 得到的词按照预先设置的字符特征进行特征标注,包括:以词的最后一个 字符的字符特征作为词的字符特征,对文本中的各词分别进行字符特征的 标注,将各词及其字符特征相连,形成特征词串。例如,将分词结果“人HAN B;民HAN E;大HAN B;会HAN M;堂HAN E”进行合并处理,得 到词,并以合并得到的词的最后一个字符的字符特征作为该词的字符特征, 将词与字符特征结合,形成特征词串,即“人民HAN;大会堂HAN”。

步骤105,根据预先构建的词性标注模型,对特征词串进行词性标注, 得到词性标注结果;

本步骤中,将特征词串通过词性标注模型进行词性标注,得到词性标 注结果。

本发明实施例中,对特征词串“人民HAN;大会堂HAN”进行词性 标注后,得到词性标注结果“人民HAN nt;大会堂HAN nt”;再例如,对 于特征词串“人民HAN;大众HAN”进行词性标注后,得到词性标注结 果“人民HAN n;大众HAN n”。

步骤106,确认词性标注结果中包含实体词词性标注,则按照相邻相同 规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析 结果。

本步骤中,确定词性标注结果中是否包含实体词词性标注,如果包含 实体词词性标注,对包含的实体词词性标注,按照相邻相同规则合并词性 标注结果中的实体词,然后输出;如果不包含实体词词性标注,则直接输 出词性标注结果。例如,对于词性标注结果“人民HAN n;大众HAN n”, 不包含有实体词词性标注,将该结果直接输出;而对于词性标注结果“人 民HAN nt;大会堂HAN nt”,包含有实体词(机构)词性标注nt,按照相 邻相同规则,合并包含实体词词性标注的实体词,即合并为“人民大会堂 HAN nt”。这样,通过对具有“相邻相同”实体词属性词进行合并,即可 完成对实体词的识别,而对于非实体词,则保留原标注状态,即对实体词 进行平滑处理。

在对实体词完成平滑处理之后,可将其作为分词结果输出,即可完成 对非实体词的小粒度分词,而对实体词的大粒度分词。

关于按照相邻相同规则进行合并的详细描述,具体可参见相关技术文 献,在此不再赘述。

由上述可见,本发明实施例的文本分析方法,通过在训练分词模型时, 在语料中考虑对实体词的处理,并通过在词性标注模型中,对实体词中各 单元词采用该实体词的标注方式,在词性标注中为单元实体词进行识别工 作,并在平滑处理中,通过相邻相同规则合并词性标注中的单元实体词, 最终完成对实体词的识别,从而可以有效提高实体词识别的准确率,提高 实体词的分词与词性标注的性能,提升输出结果中对实体词进行分词与词 性标注的准确性;同时,融合分词、词性标注、实体识别,在分词阶段与 词性标注阶段,实体词与非实体词均采用小粒度标注,与现有技术不同的 是,在词性标注的模型训练阶段,以每个实体词的属性来标注其内部各单 元词,而不是以各单元词固有的词性进行标注,可以有效利用并改善了文 本分析器对非实体词与实体词不同粒度的要求。

图2为本发明实施例文本分析器结构示意图。参见图2,该文本分析器 包括:分词模型模块、词性标注模型模块、特征字串生成模块、分词处理 模块、特征词串生成模块、词性标注模块以及实体词合并模块,其中,

分词模型模块,用于预先构建分词模型并存储构建的分词模型;

词性标注模型模块,用于预先构建词性标注模型并存储构建的词性标 注模型;

特征字串生成模块,用于对获取的文本以字符为单位进行切分处理, 对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串, 输出至分词处理模块;

本发明实施例中,字符特征包括:汉字(HAN)、英文字符(ALPHA)、 数字(NUM)、时间(TIME)、符号(SIG)以及其他(OTHER)。

分词处理模块,用于根据分词模型模块中预先构建的分词模型,对接 收的特征字串进行分词处理,得到包含字序的分词结果,输出至特征词串 生成模块;

特征词串生成模块,用于根据接收的分词结果中的字序,进行合并处 理,并对合并得到的词按照预先设置的字符特征进行特征标注,形成特征 词串;

词性标注模块,用于根据词性标注模型模块中预先构建的词性标注模 型,对接收的特征词串进行词性标注,输出词性标注结果至实体词合并模 块;

实体词合并模块,用于判断接收的词性标注结果中是否包含实体词词 性标注,如果是,按照相邻相同规则,合并词性标注结果中包含实体词词 性标注的实体词,得到文本分析结果并输出;如果否,将词性标注结果作 为文本分析结果输出。

其中,分词模型模块包括:语料采集单元、特征字串生成单元、分词 训练单元以及分词模型存储单元(图中未示出),其中,

语料采集单元,用于采集语料;

本发明实施例中,语料采集单元采集公开的6个月的人民日报语料。

特征字串生成单元,用于对语料采集单元采集的语料,以字符为单位 进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注, 形成特征字串,输出至分词训练单元;

分词训练单元,通过CRF算法,对接收的特征字串采用分类标签(6Tag) 方式进行训练,得到分词模型,输出至分词模型存储单元;

分词模型存储单元,用于存储分词训练单元训练得到的分词模型。

词性标注模型模块包括:特征词串生成单元、词性标注模型单元以及 词性标注模型存储单元(图中未示出),其中,

特征词串生成单元,用于基于分词模型,进行特征提取,形成词,以 词的最后一个字符的字符特征作为词的字符特征,形成特征词串;

词性标注模型单元,将特征词串分类为实体词以及非实体词,根据预 先存储的词性库,分别提取实体词以及非实体词的特征值,通过CRF算法 训练,对实体词以及非实体词进行词性标注,形成词性标注模型,输出至 词性标注模型存储单元;

词性标注模型存储单元,用于存储词性标注模型单元形成的词性标注 模型。

实体词合并模块包括:判断单元以及实体词合并单元(图中未示出), 其中,

判断单元,用于判断接收的词性标注结果中是否包含实体词词性标注, 如果是,将词性标注结果输出至实体词合并单元;否则,将接收的词性标 注结果输出;

本发明实施例中,将接收的词性标注结果输出,以向用户返回词性标 注结果。

实体词合并单元,用于按照相邻相同规则,合并接收的词性标注结果 中包含实体词词性标注的实体词并输出。

显然,本领域技术人员可以对本发明进行各种改动和变型而不脱离本 发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权 利要求及其等同技术的范围之内,则本发明也包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号