首页> 中国专利> 文学作品出品时期识别方法及装置

文学作品出品时期识别方法及装置

摘要

一种文学作品出品时期识别方法,包括:获取输入的文学作品,对文学作品进行分词,得到分词词组及其对应的目标出现频率;根据所述目标出现频率计算所述输入的文学作品的信息熵;获取时段样本作品及其信息熵;获取与所述输入的文学作品的信息熵差值最小的时段样本作品,并获取所述时段样本作品对应的时间区间。此外,还提供了一种文学作品出品时期识别装置。上述文学作品出品时期识别方法和装置能够提高识别的准确度。

著录项

  • 公开/公告号CN103116572A

    专利类型发明专利

  • 公开/公告日2013-05-22

    原文格式PDF

  • 申请/专利权人 深圳先进技术研究院;

    申请/专利号CN201310041324.5

  • 发明设计人 朱定局;

    申请日2013-02-02

  • 分类号G06F17/27;

  • 代理机构广州华进联合专利商标代理有限公司;

  • 代理人吴平

  • 地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号

  • 入库时间 2024-02-19 18:53:05

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-10-21

    授权

    授权

  • 2013-06-19

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20130202

    实质审查的生效

  • 2013-05-22

    公开

    公开

说明书

技术领域

本发明涉及计算机技术领域,特别是涉及一种文学作品出品时期识别方法 及装置。

背景技术

由于早期对文学作品的出品年限缺乏历史记载,在文学作品出品多年后, 无法获知文学作品的确切出品年代。

传统技术中,通常采用人工的方式,由对某作者的文学风格较熟悉的学者 或专家根据文学作品的文字风格对其进行鉴定,鉴定结果通常依赖人的文学鉴 定经验,因此准确度不高。

发明内容

基于此,有必要提供一种能提高准确度的文学作品出品时期识别方法。

一种文学作品出品时期识别方法,包括:

获取输入的文学作品,对所述输入的文学作品进行分词,得到分词词组及 其对应的目标出现频率;

根据所述目标出现频率计算所述输入的文学作品的信息熵;

获取时段样本作品及其信息熵;

通过比较所述输入的文学作品的信息熵和所述时段样本作品的信息熵识别 所述输入的文学作品出品的时间区间。

在其中一个实施例中,所述根据所述目标出现频率计算所述输入的文学作 品的信息熵的步骤之前还包括:

获取全局样本作品,对全局样本作品进行分词,得到分词词组及其对应的 全局出现频率;

根据所述全局出现频率计算所述分词词组的信息量。

在其中一个实施例中,所述根据所述目标出现频率计算所述输入的文学作 品的信息熵的步骤为:

根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学 作品的信息熵。

在其中一个实施例中,所述获取时段样本作品及其信息熵的步骤之前还包 括:

根据时间区间对所述全局样本作品进行划分,得到与时间区间对应的时段 样本作品;

对时段样本作品进行分词,得到分词词组及其对应的时段出现频率。

在其中一个实施例中,所述获取时段样本作品及其信息熵的步骤包括:

根据所述分词词组的时段出现频率及其对应的信息量计算所述时段样本作 品的信息熵。

此外,还有必要提供一种能提高准确度的文学作品出品时期识别装置。

一种文学作品出品时期识别装置,包括:

目标分词模块,用于获取输入的文学作品,对所述输入的文学作品进行分 词,得到分词词组及其对应的目标出现频率;

目标信息熵计算模块,用于根据所述目标出现频率计算所述输入的文学作 品的信息熵;

时段信息熵获取模块,用于获取时段样本作品及其信息熵;

通过比较所述输入的文学作品的信息熵和所述时段样本作品的信息熵识别 所述输入的文学作品出品的时间区间。

在其中一个实施例中,所述装置还包括全局分词模块,用于获取全局样本 作品,对全局样本作品进行分词,得到分词词组及其对应的全局出现频率;根 据所述全局出现频率计算所述分词词组的信息量。

在其中一个实施例中,所述目标信息熵计算模块还用于根据所述分词词组 的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵。

在其中一个实施例中,所述装置还包括时段分词模块根据时间区间对所述 全局样本作品进行划分,得到与时间区间对应的时段样本作品;对时段样本作 品进行分词,得到分词词组及其对应的时段出现频率。

在其中一个实施例中,所述装置还包括时段信息熵计算模块,还用于根据 所述分词词组的时段出现频率及其对应的信息量计算所述时段样本作品的信息 熵。

上述文学作品出品时期识别方法及装置,先对输入的文学作品进行了分词, 然后根据分词得到的分词词组的出现频率计算输入的文学作品的信息熵,并通 过比较信息熵得到最接近的时段样本作品,从而得到相应的时间区间。由于相 同作者相同时期的文学作品通常文风相同,用词习惯通常类似,因此根据香农 的信息论原理,其信息熵也较相似,因此,准确度较高。

附图说明

图1为一个实施例中文学作品出品时期识别方法的流程图;

图2为一个实施例中文学作品出品时期识别装置的结构示意图;

图3为另一个实施例中文学作品出品时期识别装置的结构示意图。

具体实施方式

在一个实施例中,如图1所示,一种文学作品出品时期识别方法,包括以 下步骤:

步骤S102,获取输入的文学作品,对输入的文学作品进行分词,得到分词 词组及其对应的目标出现频率。

输入的文学作品为出品年代模糊需要鉴定和识别的文学作品。目标出现频 率即对输入的文学作品进行分词后得到的分词词组在输入的文学作品中的出现 频率。

对于中文的文学作品,可通过常用的汉字词库对输入的文学作品进行分词, 例如,可通过IKAnalyzer、Paoding、jcseg或friso等分词工具或分词组件提供的 API(Application Program Interface,应用程序接口)对输入的中文的文学作品进 行分词。

对于英文的文学作品,则通过英文单词之间的空格将英文的文学作品进行 分词。

在一个实施例中,对文学作品分词后,还可对得到的分词词组进行过滤, 去除助词或无意义的副词。可预先配置助词或无意义的副词的过滤列表,将存 在于该过滤列表中的分词词组的过滤掉。

在一个实施例中,可通过公式:

Wi=riΣi=1nri

得到目标出现频率。其中,Wi为第i个分词词组在输入的文学作品中的目标 出现频率,ri为第i个分词词组在输入的文学作品中的出现次数,n为对输入的文 学作品进行分词后得到的内容不同的分词词组的总个数。

步骤S104,根据目标出现频率计算输入的文学作品的信息熵。

信息熵即根据香农(Claude Elwood Shannon)的信息论原理对文学作品整 体的信息含量的定义。

在一个实施例中,根据目标出现频率计算输入的文学作品的信息熵的步骤 之前还可获取全局样本作品,对全局样本作品进行分词,得到分词词组及其对 应的全局出现频率,根据全局出现频率计算分词词组的信息量。

全局样本作品即预先选取的与输入的文学作品具有相同作者的作为样本的 多个文学作品。全局样本作品中各个样本作品对应的时间区间为已知的时间区 间。例如,可将某个作者具有确切年代的所出品的多个文集、诗集等文学作品 作为全局样本作品。对于该作者未收纳到文集或诗集中的出品年代模糊的文学 作品,则可作为输入的文学作品对其出品时期进行识别。

信息量即某个分词词组所附带的信息含量的定义。

在本实施例中,可根据公式:

Ij=-logbsiΣi=jmsj

计算分词词组的信息量。其中,Ij为计算得到的全局样本作品中第j个分词 词组的信息量,sj为第j个分词词组在全局样本作品中的出现频率,m为全局样 本作品中内容不同的分词词组的总个数,b为预设的对数底系数,通常可以为2、 10或e。

可缓存计算得到的全局样本作品中分词词组的信息量。在执行过程中,当 缓存中已存储有全局样本作品中分词词组的信息量时,可在缓存中直接获取, 从而不用重复计算。

在本实施例中,根据目标出现频率计算输入的文学作品的信息熵的步骤可 具体为根据分词词组的目标出现频率及其对应的信息量计算输入的文学作品的 信息熵。

在本实施例中,可根据公式:

H1=Σi=1nWiIi

计算输入的文学作品的信息熵。其中,H1为输入的文学作品的信息熵,Wi为 输入的文学作品中第i个分词词组的出现频率,Ii为该第i个分词词组的信息量, n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。

需要说明的是,第i个分词词组的信息量Ii可通过前述的计算信息量的公式 计算得到,输入的文学作品的第i个分词词组即为全局样本作品中的某个分词词 组,也就是说该公式中的第i个分词词组与前述公式中的第j个分词词组为内容 相同的分词词组。

在一个实施例中,若输入的文学作品中的第i个分词词组在全局样本作品中 不存在,则可将其对应的信息量设置为预设值。也就是说,若输入的文学作品 中出现了全局样本作品中没有的词组,则可将该新出现的词组的信息量设置为 预设的信息量阈值,从而便于计算信息熵。例如,若将信息量阈值设置为0,则 表示忽略该新出现的词组,若将信息量阈值设置为较大的常数,则表示新出现 的词组带来较大的信息熵。

在一个实施例中,在获取全局样本作品时,可先获取输入的文学作品的篇 幅或字数,然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作 品添加到全局样本作品中,从而减少篇幅或篇幅所代表的文学形式对作者用词 产生的影响,提高识别的准确率。

步骤S106,获取时段样本作品及其信息熵。

时段样本作品即全局样本作品中对应了时间区间的一组文学作品的集合。 可根据预设的时间区间将全局样本作品划分为多个时段样本作品。

在本实施例中,获取时段样本作品及其信息熵的步骤之前还可根据时间区 间对全局样本作品进行划分,得到与时间区间对应的时段样本作品,对时段样 本作品进行分词,得到分词词组及其对应的时段出现频率。

时段出现频率即对时段样本作品进行分词后得到的分词词组在该时段样本 作品中的出现频率。

在本实施例中,可根据公式:

Tk=qkΣk=1lqk

得到时段出现频率。其中,Tk为第k个分词词组在时段样本作品中的时段出 现频率,qk为第k个分词词组在时段样本作品中的出现次数,l为对时段样本作 品进行分词后得到的内容不同的分词词组的总个数。

进一步的,获取时段样本作品及其信息熵的步骤可包括根据分词词组的时 段出现频率及其对应的信息量计算时段样本作品的信息熵。

在本实施例中,可根据公式:

Ht=Σk=1lTkIk

计算时段样本作品的信息熵。其中,Ht为时段样本作品的信息熵,Tk为时 段样本作品中第k个分词词组在该时段样本作品中的时段出现频率,Ik为该第k 个分词词组的信息量,l为对时段样本作品进行分词后得到的内容不同的分词词 组的总个数。

可根据预设的时间区间(例如,每年、每十年等)将全局样本作品划分为 多个时段样本作品,每个时段样本作品对应相应的时间区间。可根据上述公式 计算上述划分得到的多个时段样本作品的信息熵。

可缓存计算得到的时段样本作品的信息熵。在执行过程中,当缓存中已存 储有时段样本作品的信息熵时,可在缓存中直接获取,从而不用重复计算。

步骤S108,通过比较输入的文学作品的信息熵和时段样本作品的信息熵识 别输入的文学作品出品的时间区间。

在本实施例中,可获取与输入的文学作品的信息熵差值最小的时段样本作 品,并获取时段样本作品对应的时间区间。该时间区间即为识别得到的输入的 文学作品出品的时间区间。

在本实施例中,可通过比较H1和Ht,获取使得|Ht-H1|的值最小的Ht值,然 后获取该Ht对应的时段样本作品及其对应的时间区间,该时间区间即为识别得 到的输入的文学作品出品的时间区间。

在一个实施例中,如图2所示,一种文学作品出品时期识别装置,包括目 标分词模块102、目标信息熵计算模块104、时段信息熵获取模块106以及时段 识别模块108,其中:

目标分词模块102,用于获取输入的文学作品,对输入的文学作品进行分词, 得到分词词组及其对应的目标出现频率。

输入的文学作品为出品年代模糊需要鉴定和识别的文学作品。目标出现频 率即对输入的文学作品进行分词后得到的分词词组在输入的文学作品中的出现 频率。

对于中文的文学作品,可通过常用的汉字词库对输入的文学作品进行分词, 例如,可通过IKAnalyzer、Paoding、jcseg或friso等分词工具或分词组件提供的 API(Application Program Interface,应用程序接口)对输入的中文的文学作品进 行分词。

对于英文的文学作品,则通过英文单词之间的空格将英文的文学作品进行 分词。

在一个实施例中,对文学作品分词后,目标分词模块102还可用于对得到 的分词词组进行过滤,去除助词或无意义的副词。可预先配置助词或无意义的 副词的过滤列表,将存在于该过滤列表中的分词词组的过滤掉。

在一个实施例中,目标分词模块102可用于通过公式:

Wi=riΣi=1nri

得到目标出现频率。其中,Wi为第i个分词词组在输入的文学作品中的目标 出现频率,ri为第i个分词词组在输入的文学作品中的出现次数,n为对输入的文 学作品进行分词后得到的内容不同的分词词组的总个数。

目标信息熵计算模块104,用于根据目标出现频率计算输入的文学作品的信 息熵。

信息熵即根据香农(Claude Elwood Shannon)的信息论原理对文学作品整 体的信息含量的定义。

在一个实施例中,如图3所示,文学作品出品时期识别装置还包括全局分 词模块110,用于获取全局样本作品,对全局样本作品进行分词,得到分词词组 及其对应的全局出现频率,根据全局出现频率计算分词词组的信息量。

全局样本作品即预先选取的与输入的文学作品具有相同作者的作为样本的 多个文学作品。全局样本作品中各个样本作品对应的时间区间为已知的时间区 间。例如,可将某个作者具有确切年代的所出品的多个文集、诗集等文学作品 作为全局样本作品。对于该作者未收纳到文集或诗集中的出品年代模糊的文学 作品,则可作为输入的文学作品对其出品时期进行识别。

信息量即某个分词词组所附带的信息含量的定义。

在本实施例中,全局分词模块110可用于根据公式:

Ij=-logbsjΣi=jmsj

计算分词词组的信息量。其中,Ij为计算得到的全局样本作品中第j个分词 词组的信息量,sj为第j个分词词组在全局样本作品中的出现频率,m为全局样 本作品中内容不同的分词词组的总个数,b为预设的对数底系数,通常可以为2、 10或e。

可缓存计算得到的全局样本作品中分词词组的信息量。在执行过程中,当 缓存中已存储有全局样本作品中分词词组的信息量时,可在缓存中直接获取, 从而不用重复计算。

在本实施例中,目标信息熵计算模块104可用于根据分词词组的目标出现 频率及其对应的信息量计算输入的文学作品的信息熵。

在本实施例中,目标信息熵计算模块104可用于根据公式:

H1=Σi=1nWiTi

计算输入的文学作品的信息熵。其中,H1为输入的文学作品的信息熵,Wi为 输入的文学作品中第i个分词词组的出现频率,Ii为该第i个分词词组的信息量, n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。

需要说明的是,第i个分词词组的信息量Ii可通过前述的计算信息量的公式 计算得到,输入的文学作品的第i个分词词组即为全局样本作品中的某个分词词 组,也就是说该公式中的第i个分词词组与前述公式中的第j个分词词组为内容 相同的分词词组。

在一个实施例中,若输入的文学作品中的第i个分词词组在全局样本作品中 不存在,则可将其对应的信息量设置为预设值。也就是说,若输入的文学作品 中出现了全局样本作品中没有的词组,则可将该新出现的词组的信息量设置为 预设的信息量阈值,从而便于计算信息熵。例如,若将信息量阈值设置为0,则 表示忽略该新出现的词组,若将信息量阈值设置为较大的常数,则表示新出现 的词组带来较大的信息熵。

在一个实施例中,在获取全局样本作品时,可先获取输入的文学作品的篇 幅或字数,然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作 品添加到全局样本作品中,从而减少篇幅或篇幅所代表的文学形式对作者用词 产生的影响,提高识别的准确率。

时段信息熵获取模块106,用于获取时段样本作品及其信息熵。

时段样本作品即全局样本作品中对应了时间区间的一组文学作品的集合。 可根据预设的时间区间将全局样本作品划分为多个时段样本作品。

在本实施例中,如图3所示,文学作品出品时期识别装置还包括时段分词 模块112,用于根据时间区间对全局样本作品进行划分,得到与时间区间对应的 时段样本作品,对时段样本作品进行分词,得到分词词组及其对应的时段出现 频率。

时段出现频率即对时段样本作品进行分词后得到的分词词组在该时段样本 作品中的出现频率。

在本实施例中,时段分词模块112可用于根据公式:

Tk=qkΣk=1lqk

得到时段出现频率。其中,Tk为第k个分词词组在时段样本作品中的时段出 现频率,qk为第k个分词词组在时段样本作品中的出现次数,l为对时段样本作 品进行分词后得到的内容不同的分词词组的总个数。

进一步的,如图3所示,文学作品出品时期识别装置还包括时段信息熵计 算模块114,用于根据分词词组的时段出现频率及其对应的信息量计算时段样本 作品的信息熵。

在本实施例中,时段信息熵计算模块114可用于根据公式:

Ht=Σk=1lTkIk

计算时段样本作品的信息熵。其中,Ht为时段样本作品的信息熵,Tk为时 段样本作品中第k个分词词组在该时段样本作品中的时段出现频率,Ik为该第k 个分词词组的信息量,l为对时段样本作品进行分词后得到的内容不同的分词词 组的总个数。

可根据预设的时间区间(例如,每年、每十年等)将全局样本作品划分为 多个时段样本作品,每个时段样本作品对应相应的时间区间。可根据上述公式 计算上述划分得到的多个时段样本作品的信息熵。

可缓存计算得到的时段样本作品的信息熵。在执行过程中,当缓存中已存 储有时段样本作品的信息熵时,可在缓存中直接获取,从而不用重复计算。

时段识别模块108,用于通过比较输入的文学作品的信息熵和时段样本作品 的信息熵识别输入的文学作品出品的时间区间。

在本实施例中,时段识别模块108可用于获取与输入的文学作品的信息熵 差值最小的时段样本作品,并获取时段样本作品对应的时间区间。该时间区间 即为识别得到的输入的文学作品出品的时间区间。

在本实施例中,时段识别模块108可用于通过比较前述计算得到的H1和Ht, 获取使得|Ht-H1|的值最小的Ht值,然后获取该Ht对应的时段样本作品及其对应 的时间区间,该时间区间即为识别得到的输入的文学作品出品的时间区间。

上述文学作品出品时期识别方法及装置,先对输入的文学作品进行了分词, 然后根据分词得到的分词词组的出现频率计算输入的文学作品的信息熵,并通 过比较信息熵得到最接近的时段样本作品,从而得到相应的时间区间。由于相 同作者相同时期的文学作品通常文风相同,用词习惯通常类似,因此根据香农 的信息论原理,其信息熵也较相似,因此,准确度较高。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附 权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号