首页> 中国专利> 通配符类模板泛化方法和装置、通用模板泛化方法和系统

通配符类模板泛化方法和装置、通用模板泛化方法和系统

摘要

本发明提供了一种通配符类模板泛化方法和装置、通用模板泛化方法和系统,其中通配符类模板泛化方法包括:对模板泛化所采用语料中的各文本对象分别执行:对当前文本对象进行分词处理;利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。通过本发明能够提高泛化得到的模板的召回率和识别准确性。

著录项

  • 公开/公告号CN103186509A

    专利类型发明专利

  • 公开/公告日2013-07-03

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN201110452249.2

  • 发明设计人 黄际洲;钟华;

    申请日2011-12-29

  • 分类号G06F17/22(20060101);

  • 代理机构北京鸿德海业知识产权代理事务所(普通合伙);

  • 代理人袁媛

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2024-02-19 18:48:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-03-30

    授权

    授权

  • 2013-08-28

    实质审查的生效 IPC(主分类):G06F17/22 申请日:20111229

    实质审查的生效

  • 2013-07-03

    公开

    公开

说明书

【技术领域】

本发明涉及计算机技术领域,特别涉及一种通配符类模板泛化方法和装 置、通用模板泛化方法和系统。

【背景技术】

所谓模板泛化指的是从大量的文本对象中抽象出相似的模板,并用该模 板反应一类文本对象的表述方式的过程。模板泛化在搜索需求识别、网页类 型识别以及主题识别等技术中都是十分重要的组成部分,例如在搜索需求识 别中,利用大量具有某类需求的搜索项(query)进行模板泛化,从而利用泛 化得到的模板进行该类需求的query识别。

其中模板可以包含通配符槽、词典槽、函数槽以及固定词语中的至少一 种构成,例如模板“[D:明星][D:电视剧][W:0-6]剧照[F:数字]”,其中, [D:明星]和[D:电视剧]属于词典槽,分别表示可匹配明星名和电视剧名, [W:0-6]为通配符槽,表示可匹配长度为0至6的任意词语,“剧照”是固定 词语,[F:数字]为函数槽,表示可匹配识别为数字的词语。

基于上述模板的构成,模板泛化的方式可以包括:词典类泛化、函数类 泛化以及通配符类泛化。其中通配符类泛化时将query的修饰限定词泛化为 通配符槽,保留主干词,得到带有通配符槽的模板。通配符类泛化过程中首 先分别针对各文本对象进行分词处理,然后基于分词处理后得到的各词项的 概率确定通配符槽和固定词语。然而在现有的通配符类泛化过程中存在如下 问题:在分词处理过程可能将某些应该是一个词项的切分为多个词项,例如 对于“百度公司招聘”这一文本对象,如果分词处理过程所使用的词典中不 存在“百度”和“百度公司”这两个词语,则可能被切分为“百/度/公司/招 聘”,其中“/”用于标识切分位置,在本发明的后续实施例中均采用这种标 识方式。基于该分词结果的通配符类泛化显然不能得到准确的模板,例如可 能得到[W:0-2]度公司招聘,这就大大降低了模板的召回率和识别准确性。

【发明内容】

本发明提供了一种通配符类模板泛化方法和装置、通用模板泛化方法和 系统,以便于提高泛化得到的模板的召回率和识别准确性。

具体技术方案如下:

一种通配符类模板泛化方法,对模板泛化所采用语料中的各文本对象分别执 行以下步骤:

S11、对当前文本对象进行分词处理;

S12、利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各 粘接结果,该粘接结果中包含所述分词结果;

S13、分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接 概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;

S14、基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文 本对象的通配符类模板。

根据本发明一优选实施例,在所述步骤S12中参与粘接的相邻词项为: 字与字之间,和/或,字与词之间。

根据本发明一优选实施例,在所述步骤S13中,如果相邻词项分别为A和 B,则A和B的粘接概率P(A+B)和拆分概率P′(A-B)分别为:

P(A+B)=P(A|B)×P′(B|A)

P(A-B)=(1-P(A|B))×(1-P′(B|A))

其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的 比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。

根据本发明一优选实施例,所述步骤S14具体为:

将所述概率最大的粘接结果中,词频tf-逆向文档频率idf值小于预设阈值的 词项,或者tf-idf值小于预设阈值且排在后N个的词项替换为通配符槽,其余词 项作为固定词语,所述通配符槽指示的通配符长度为被替换词项的长度,所述N 为预设的正整数。

根据本发明一优选实施例,该方法还包括:对所述语料中的各文本对象的 通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符 类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合 通配符类模板中指示的最大通配符长度。

一种通用模板泛化方法,该方法包括上述的通配符类模板泛化方法,以及,

S2、对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各 文本对象的词典类模板;和/或,对模板泛化所采用语料中的各文本对象进行函 数类模板泛化,得到各文本对象的函数类模板;

S4、对同一文本对象得到的各模板进行合并处理。

根据本发明一优选实施例,在所述步骤S4中采用以下策略中的至少一种 进行所述合并处理:

策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种 类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽;

策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或函 数槽,则保留词典槽;

策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在 合并结果中保留所有槽。

根据本发明一优选实施例,在所述步骤S4之后还包括:

S5、合并重复的模板;

S6、统计各模板所来源的文本对象数量,选择所来源的文本对象数量满足 预设要求的模板作为最终的泛化结果;

其中所述预设要求为:所来源的文本对象数量排在前M个,M为预设的正 整数,或者,所来源的文本对象数量大于预设的数量阈值。

一种通配符类模板泛化装置,该装置包括:

分词处理单元,用于分别获取模板泛化所采用语料中的各文本对象,对获 取的当前文本对象进行分词处理;

粘接处理单元,用于利用分词结果中相邻词项粘接成一个词项的所有可能 的组合,确定各粘接结果,该粘接结果中包含所述分词结果;

概率计算单元,用于分别针对各粘接结果,将粘接结果中所有进行粘接的 相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的 概率;

模板产生单元,用于基于概率最大的粘接结果确定通配符槽和固定词语, 得到所述当前文本对象的通配符类模板。

根据本发明一优选实施例,所述粘接处理单元在确定粘接结果时,参与粘 接的相邻词项为:字与字之间,和/或,字与词之间。

根据本发明一优选实施例,如果相邻词项分别为A和B,则所述概率计算 单元采用以下公式计算A和B的粘接概率P(A+B)和拆分概率P′(A-B):

P(A+B)=P(A|B)×P′(B|A)

P(A-B)=(1-P(A|B))×(1-P′(B|A))

其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的 比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。

根据本发明一优选实施例,所述模板产生单元具体将所述概率最大的粘接 结果中,词频tf-逆向文档频率idf值小于预设阈值的词项,或者tf-idf值小于预 设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,所述通 配符槽指示的通配符长度为被替换词项的长度,所述N为预设的正整数。

根据本发明一优选实施例,该装置还包括:

模板整合单元,用于对所述语料中的各文本对象的通配符类模板进行整合, 具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板, 整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最 大通配符长度。

一种通用模板泛化系统,该系统包括:上述的通配符类模板泛化装置,以 及,

词典类模板泛化装置,用于对模板泛化所采用语料中的各文本对象进行词 典类模板泛化,得到各文本对象的词典类模板;

函数类模板泛化装置,用于对模板泛化所采用语料中的各文本对象进行函 数类模板泛化,得到各文本对象的函数类模板;

模板合并单元,用于对同一文本对象得到的各模板进行合并处理。

根据本发明一优选实施例,所述模板合并单元采用以下策略中的至少一种 进行所述合并处理:

策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种 类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽;

策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或函 数槽,则保留词典槽;

策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在 合并结果中保留所有槽。

根据本发明一优选实施例,该系统还包括:

模板去重单元,用于在所述模板合并单元进行合并处理后的各模板中,合 并重复的模板;

结果产生单元,用于统计所述模板去重单元处理后的各模板所来源的文本 对象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结 果;

其中所述预设要求为:所来源的文本对象数量排在前M个,M为预设 的正整数,或者,所来源的文本对象数量大于预设的数量阈值。

由以上技术方案可以看出,本发明在传统分词的基础上,通过将相邻词 项进行粘接的所有可能的组合,确定各粘接结果,并将粘接结果中所有进行 粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘 接结果的概率,基于概率最大的粘接结果来得到通配符类模板。由于本发明 中粘接结果的概率体现了这种词项的构成所具有的覆盖率,因此基于最高概 率的粘接结果所得到的通配符类模板具有较高的召回率和识别准确性。另外 基于此通配符类模板泛化方法结合词典类模板泛化方法和函数类模板泛化方 法构成的通用模板泛化方法,最终泛化得到的模板同样具有较高的召回率和 识别准确性。

【附图说明】

图1为本发明实施例一提供的通配符类模板泛化的方法流程图;

图2为本发明实施例二提供的通用模板泛化方法的流程图;

图3为本发明实施例三提供的通配符类模板泛化装置的结构图;

图4为本发明实施例四提供的通用模板泛化系统的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体 实施例对本发明进行详细描述。

本发明的核心思想是在分词处理之后,增加一个对分词处理得到各词项 的“粘接”处理,将可能构成一个词项的多个词项粘接起来,再基于粘接后 的结果确定通配符槽和固定词语,从而弥补对于分词所使用词典之外的词语 会被切分开的缺陷。下面结合实施例一对该方法进行详细描述。

实施例一、

图1为本发明实施例一提供的通配符类模板泛化的方法流程图,如图1 所示,对模板泛化所采用语料中的各文本对象分别执行以下步骤:

步骤101:对文本对象进行分词处理。

通常使用已有的词典对文本对象进行匹配,对于匹配到该词典的作为一 个词项,没有匹配到词典的分别保留各字作为一个词项,此处的词项包括字、 词、短语等,是个广义的概念。分词处理为现有技术,在此不再赘述。

仍以“百度公司招聘”为例,假设分词处理所采用的词典中存在“公司” 和“招聘”,则得到的分词结果为“百/度/公司/招聘”。

步骤102:利用分词结果中相邻词项粘接成一个词项的所有可能的组合, 确定各粘接结果,该粘接结果中也包含分词结果。

由于通常词与词之间进行粘接构成一个词项的可能性较小,因此本作为 一种优选的实施方式,参与粘接的相邻词项通常为:字与字之间、字与词之 间。例如,分词结果“百/度/公司/招聘”得到的各粘接结果为:“百/度/公司 /招聘”、“百度/公司/招聘”、“百/度公司/招聘”以及“百度公司/招聘”, 由于“公司”和“招聘”都是词语,在例子中不进行粘接。

步骤103:分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词 项的粘接概率以及保持拆分的相邻词项的拆分概率进行相乘得到粘接结果的 概率。

如果相邻词项分别为A和B,则A和B的粘接概率P(A+B)和拆分概率 P′(A-B)分别为:

P(A+B)=P(A|B)×P′(B|A)

P(A-B)=(1-P(A|B))×(1-P′(B|A))

其中,P(A|B)为词项B出现且B之前有词项时B之前的词项是A的概 率,P′(B|A)为词项A出现且A之后有词项时A之后的词项是B的概率。

具体地,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的 次数的比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的 次数的比值。

接续上例,粘接结果“百/度/公司/招聘”的概率为:(1-P(百|度))×(1-P(度 |百))×(1-P(度|公司))×(1-P(公司|度))=0.00064。

粘接结果“百度/公司/招聘”的概率为:P(百|度)×P(度|百)×(1-P(度| 公司))×(1-P(公司|度))=0.0012。

粘接结果“百/度公司/招聘”的概率为:(1-P(百|度))×(1-P(度|百))×P(度 |公司)×P(公司|度)=0.0008。

粘接结果“百度公司/招聘”的概率为:P(百|度)×P(度|百)×P(度|公 司)×P(公司|度)=0.0075。

可见“百度公司/招聘”的概率最大,选出用于执行步骤104。

步骤104:基于概率最大的粘接结果,确定通配符槽和固定词语,从而 得到该文本对象的通配符类模板。

通配符槽和固定词语的确定通常基于粘接结果中各词项的词频(tf)-逆 向文档频率(idf),其中tf基于模板泛化所采用语料进行统计,idf基于大 规模语料进行统计。然后将tf-idf值小于预设阈值的词项替换为通配符槽, 指示的通配符长度可以为被替换词项的长度,其余词项作为固定词语。

上例中挑选出的概率最大的粘接结果“百度公司/招聘”,假设词项“百 度公司”的tf-idf小于预设阈值,则将“百度公司”替换为通配符槽,得到 的通配符类模板为:[W:0-8]招聘。

另外,可以进一步对通配符槽的数量进行限制,一个模板中最多只能出 现N个通配符槽,N为预设的正整数,例如N取2,或者N的值与对象文本 中分词处理后得到的词项成正比。如果tf-idf值小于预设阈值的词项数量超 过N,则仅取tf-idf值排在后N个的词项替换为通配符槽。

更进一步地,由于通过上述方式对模板泛化所采用语料中的每一个文本 对象都进行泛化处理后,得到的模板可能会存在重叠,这种重叠通常体现在 通配符槽指示的通配符长度,因此可以对得到的各通配符类模板进行整合, 将仅通配符槽指示通配符长度不同的模板整合为一个模板,整合后的模板中 通配符槽指示的通配符长度为上述不同模板中指示的最大通配符长度。

例如,得到的模板中包含有这样一些模板:林志玲[W:0-4]图片、林志玲 [W:0-8]图片以及林志玲[W:0-12]图片,则将其整合为:林志玲[W:0-12]图片。

除了实施例一所述的通配符类模板泛化的方法之外,还可以对模板泛化 所采用的语料进行其他方法的泛化,例如词典类泛化、函数类泛化等,当得 到所有模板泛化结果后,由于模板泛化结果中不可避免的会存在相互覆盖的 情况,例如,由query“北京西三旗招聘带车司机”进行词典类泛化得到的 模板为:[D:地名]招聘带车[D:职位名],进行通配符类泛化得到的模板为:北 京[W:0-6]招聘[W:0-4]司机,为了提高泛化效果,可以进一步对多种泛化方法 得到的模板进行合并处理。下面通过实施例二对这一过程进行详细描述。

实施例二、

图2为本发明实施例二提供的通用模板泛化方法的流程图,如图2所示, 该方法包括以下步骤:

步骤201:采用实施例一所示流程对模板泛化所采用语料进行通配符类 模板泛化。

假设对本实施例中采用的语料为具有图片类需求的各query,则对各 query进行分词处理的结果为表1中所示,则经过本步骤对一些query进行泛 化后,得到的通配符类模板如表1所示。

表1

  query分词结果   通配符类模板   2010/年/12/月/日历/桌面/壁纸   2010年[W:0-2]月日历桌面壁纸   1920/x/1080/高清/壁纸   [W:0-4]x1080高清壁纸   240//320/手机/壁纸   240[W:0-3]手机壁纸   2010/雅鹿/羽绒服/图片   2010[W:0-4]羽绒服图片   iphone5/代/图片   iphone5[W:0-2]图片   微生物/实验室/设计图   微生物[W:0-6]设计图   天上人间/夜总会/图片   [W:0-8]夜总会图片   家庭/厨房/装修/效果图   [W:0-4]厨房装修效果图   突然的自我/吉他谱   [W:0-10]他谱   天天向上/qq/表情   [W:0-8]qq表情   天使/的/翅膀/吉他谱   天使的[W:0-4]吉他谱   简单/韩式/发型/扎法   [W:0-4]韩式发型扎法   qq/空间/伤感/图片   qq空间[W:0-4]图片   146/期/六合彩/图   [W:0-3]期六合彩图   天通苑/北六区/户型图   天通苑[W:0-6]户型图

步骤202:对上述语料进行词典类模板泛化。

词典类泛化是将文本对象中属于同一个类型的词项替换为该类型描述 符的过程,所采用的词典通常为类型词典,例如将包含所有明星名的词项纳 入明星词典。

该过程通常是对文本对象进行分词后,采用基于词正向最大匹配的方法 与各类型的词典进行匹配,将匹配到的一个或多个词项替换为对应词典的类 型描述符。其中一个或多个词项的含义在于,文本对象中可以连续多个词项 构成一个词典条目,在匹配过程中通常尽量保证最长串的泛化。

具体在执行时,可以预先为各类型的词典配置优先级,按照优先级从高 到低的顺序进行匹配,从而当不同词典间存在公共的部分时,可以依据配置 使用高优先级的类型进行泛化。

对于各类型词典的形成可以采用现有的方式,例如采用穷举的方式、命 名实体识别的方式、基于n-gram统计的方式等等,在此不再赘述。

对表1中相同的query执行本步骤的词典类泛化后,得到的词典类模板 如表2中所示。

表2

  query分词结果   词典类模板   2010/年/12/月/日历/桌面/壁纸  2010年12月日历桌面壁纸   1920/x/1080/高清/壁纸  1920x1080高清壁纸   240//320/手机/壁纸  240/320手机壁纸   2010/雅鹿/羽绒服/图片  2010[D:品牌名]羽绒服图片   iphone5/代/图片  [D:电子产品名]图片   微生物/实验室/设计图  微生物实验室设计图   天上人间/夜总会/图片  天上人间夜总会图片   家庭/厨房/装修/效果图  家庭厨房装修效果图   突然的自我/吉他谱  [D:歌曲名]吉他谱   天天向上/qq/表情  天天向上qq表情   天使/的/翅膀/吉他谱  [D:歌曲名]吉他谱   简单/韩式/发型/扎法  简单韩式发型扎法   qq/空间/伤感/图片  qq空间伤感图片   146/期/六合彩/图  146期六合彩图   天通苑/北/六/区/户型图  [D:小区名]北六区户型图

步骤203:对上述语料进行函数类模板泛化。

该过程通常是首先对文本对象进行分词处理,然后将分词结果通过函数 进行识别,将函数识别出的一个或多个词项替换为对应的函数槽。通常的函 数包括:数字识别函数、日期识别函数、机构名识别函数等。例如:将文本 对象“百度在线网络技术北京有限公司高薪招聘”进行分词后得到“百/度/ 在线/网络/技术/北京/有限公司/高薪/招聘”,通过机构名函数进行识别后, 识别出“百度在线网络技术北京有限公司”为机构名,因此得到的函数类模 板为:[F:机构名]高薪招聘。

对表1中相同的query执行本步骤的函数类泛化后,得到的函数类模板 如表3中所示。

表3

  query分词结果   函数类模板   2010/年/12/月/日历/桌面/壁纸   [F:日期]日历桌面壁纸   1920/x/1080/高清/壁纸   [F:分辨率]高清壁纸   240//320/手机/壁纸   [F:分辨率]手机壁纸   2010/雅鹿/羽绒服/图片   [F:日期][D:品牌名]羽绒服图片   iphone5/代/图片   iphone5代图片   微生物/实验室/设计图   微生物实验室设计图   天上人间/夜总会/图片   [F:机构名]夜总会图片   家庭/厨房/装修/效果图   家庭厨房装修效果图   突然的自我/吉他谱   突然的自我吉他谱   天天向上/qq/表情   天天向上qq表情   天使/的/翅膀/吉他谱   天使的翅膀吉他谱   简单/韩式/发型/扎法   简单韩式发型扎法   qq/空间/伤感/图片   qq空间伤感图片   146/期/六合彩/图   [F:数字]期六合彩图   天通苑/北/六/区/户型图   天通苑北六区户型图

上述步骤201、202和203没有固定的先后顺序,可以同时执行,也可 以以任意的顺序先后执行,只要保证对同一语料进行泛化即可,例如将属于 同一类型的各query作为语料进行泛化。

步骤204:对同一文本对象得到的通配符类模板、词典类模板和函数类 模板进行合并处理。

由于三种模板泛化方法对于文本对象的划分粒度不一定统一,这就可能 会造成得到的模板相互覆盖的问题,另外,文本对象中的同一个词项可能在 不同的泛化方式中被泛化成通配符槽、词典槽以及函数槽,这也会造成模板 覆盖的问题。

为了解决上述问题,在本步骤中进行合并时可以采用以下合并策略中的 至少一种:

策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成词 典槽、通配符槽和函数槽中的至少两个,则按照预设的优先级顺序保留其中 一个。例如,按照词典槽、函数槽、通配符槽的优先级顺序。文本对象“刘 德华高清大图”被泛化成了如下两个模板:[D:明星名]高清大图,[W:0-6]高 清大图,则进行合并后为:[D:明星名]高清大图。

策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或 函数槽,则保留词典槽。例如,文本对象“天使的翅膀吉他谱”被泛化成了 如下两个模板:[D:歌曲名]吉他谱,天使的[W:0-4]吉他谱,则进行合并后为: [D:歌曲名]吉他谱。

策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则 在合并结果中保留所有槽。例如:文本对象“刘德华上海演唱会”,泛化出 的模板为:[D:明星名]上海演唱会,刘德华[W:0-4]演唱会,则合并处理后的 结果为:[D:明星名][W:0-4]演唱会。

当然还可以采用其他策略,在此不再一一赘述。

对表1、表2和表3中所示的通配符类模板、词典类模板和函数类模板 进行合并处理后得到的模板可以如表4所示。

表4

  合并处理后得到的模板   [F:日期]日历桌面壁纸   [F:分辨率]高清壁纸   [F:分辨率]手机壁纸   [F:日期][D:品牌名]羽绒服/图片   [D:电子产品名]图片   微生物[W:0-6]设计图   [F:机构名]夜总会图片   [W:0-4]厨房装修效果图   [D:歌曲名]吉他谱   [W:0-8]qq表情   [D:歌曲名]吉他谱   [W:0-4]韩式发型扎法   qq空间[W:0-4]图片   [F:数字]期六合彩图   [D:小区名][W:0-6]户型图

在进行合并处理后得到的模板,其中可能会存在一些质量较低的模板, 因此可以进一步执行以下步骤挑选出质量较高的模板作为最终泛化出的模 板。

步骤205:合并重复的模板。

由表4中可以看出,“[D:歌曲名]吉他谱”存在重复,则合并为一个模 板。

步骤206:统计各模板所来源的文本对象数量,选择所来源的文本对象 数量满足预设要求的模板作为最终的泛化结果。

其中预设要求为:所来源的文本对象数量排在前M个,M为预设的正 整数;或者,所来源的文本对象数量大于预设的数量阈值。

一般来说,模板所来源的文本对象数量越多,说明该模板能够匹配的文 本对象越多,召回率越大,认为其质量越高。

以上是对本发明所提供的方法进行的详细描述,下面通过实施例三和四 分别对本发明所提供的装置和系统进行详细描述。

实施例三、

图3为本发明实施例三提供的通配符类模板泛化装置的结构图,如图3 所示,该装置包括:分词处理单元301、粘接处理单元302、概率计算单元 303和模板产生单元304。

分词处理单元301分别获取模板泛化所采用语料中的各文本对象,对获取 的当前文本对象进行分词处理。

通常使用已有的词典对文本对象进行匹配,对于匹配到该词典的作为一个 词项,没有匹配到词典的分别保留各字作为一个词项,此处的词项包括字、词、 短语等,是个广义的概念。分词处理为现有技术,在此不再赘述。

粘接处理单元302利用分词结果中相邻词项粘接成一个词项的所有可能的 组合,确定各粘接结果,该粘接结果中包含分词结果。

由于通常词与词之间进行粘接构成一个词项的可能性较小,因此本作为一 种优选的实施方式,参与粘接的相邻词项通常为:字与字之间、字与词之间。

概率计算单元303分别针对各粘接结果,将粘接结果中所有进行粘接的相 邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概 率。

如果相邻词项分别为A和B,则概率计算单元303可以采用以下公式计算 A和B的粘接概率P(A+B)和拆分概率P′(A-B):

P(A+B)=P(A|B)×P′(B|A)

P(A-B)=(1-P(A|B))×(1-P′(B|A))

其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的 比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。

模板产生单元304基于概率最大的粘接结果确定通配符槽和固定词语,得 到当前文本对象的通配符类模板。具体地,将概率最大的粘接结果中,tf-idf值 小于预设阈值的词项,或者tf-idf值小于预设阈值且排在后N个的词项替换为通 配符槽,其余词项作为固定词语,通配符槽指示的通配符长度为被替换词项的 长度,N为预设的正整数。

更进一步地,由于通过上述装置对模板泛化所采用语料中的每一个文本对 象都进行通配符类泛化处理后,得到的模板可能会存在重叠,这种重叠通常体 现在通配符槽指示的通配符长度,鉴于此,该装置还可以包括:

模板整合单元305,用于对语料中的各文本对象的通配符类模板进行整合, 具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板, 整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最 大通配符长度。

实施例四、

图4为本发明实施例四提供的通用模板泛化系统的结构图,如图4所示, 该系统包括:实施例三中所述的通配符类模板泛化装置410、词典类模板泛化装 置420、函数类模板泛化装置430以及模板合并单元440。

词典类模板泛化装置420对模板泛化所采用语料中的各文本对象进行词典 类模板泛化,得到各文本对象的词典类模板。

词典类模板泛化过程通常是对文本对象进行分词后,采用基于词正向最 大匹配的方法与各类型的词典进行匹配,将匹配到的一个或多个词项替换为 对应词典的类型描述符。其中一个或多个词项的含义在于,文本对象中可以 连续多个词项构成一个词典条目,在匹配过程中通常尽量保证最长串的泛化。

具体在执行时,可以预先为各类型的词典配置优先级,按照优先级从高 到低的顺序进行匹配,从而当不同词典间存在公共的部分时,可以依据配置 使用高优先级的类型进行泛化。

对于各类型词典的形成可以采用现有的方式,例如采用穷举的方式、命 名实体识别的方式、基于n-gram统计的方式等等,在此不再赘述。

函数类模板泛化装置430对模板泛化所采用语料中的各文本对象进行函数 类模板泛化,得到各文本对象的函数类模板。

函数类模板泛化过程通常是首先对文本对象进行分词处理,然后将分词结 果通过函数进行识别,将函数识别出的一个或多个词项替换为对应的函数槽。 通常的函数包括:数字识别函数、日期识别函数、机构名识别函数等。

模板合并单元440对同一文本对象得到的各模板进行合并处理。具体可以 采用以下策略中的至少一种进行合并处理:

策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种 类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽。

策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或函 数槽,则保留词典槽。

策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在 合并结果中保留所有槽。

更进一步地,该系统还可以包括:模板去重单元450和结果产生单元460。

模板去重单元450在模板合并单元440进行合并处理后的各模板中,合并 重复的模板。

结果产生单元460统计模板去重单元450处理后的各模板所来源的文本对 象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结果; 其中预设要求为:所来源的文本对象数量排在前M个,M为预设的正整数,或 者,所来源的文本对象数量大于预设的数量阈值。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号