首页> 中国专利> 文学作品出品时期识别方法及装置

文学作品出品时期识别方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种文学作品出品时期识别方法，包括：获取输入的文学作品，对文学作品进行分词，得到分词词组及其对应的目标出现频率；根据所述目标出现频率计算所述输入的文学作品的信息熵；获取时段样本作品及其信息熵；获取与所述输入的文学作品的信息熵差值最小的时段样本作品，并获取所述时段样本作品对应的时间区间。此外，还提供了一种文学作品出品时期识别装置。上述文学作品出品时期识别方法和装置能够提高识别的准确度。

著录项

公开/公告号CN103116572A

专利类型发明专利
公开/公告日2013-05-22

原文格式PDF
申请/专利权人深圳先进技术研究院;
展开▼

申请/专利号CN201310041324.5
发明设计人朱定局;
展开▼

申请日2013-02-02
分类号G06F17/27;
代理机构广州华进联合专利商标代理有限公司;
代理人吴平
地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号
入库时间 2024-02-19 18:53:05

法律信息

法律状态公告日

法律状态信息

法律状态
2015-10-21

授权

授权
2013-06-19

实质审查的生效 IPC(主分类):G06F17/27 申请日:20130202

实质审查的生效
2013-05-22

公开

公开

说明书

技术领域

本发明涉及计算机技术领域，特别是涉及一种文学作品出品时期识别方法及装置。

背景技术

由于早期对文学作品的出品年限缺乏历史记载，在文学作品出品多年后，无法获知文学作品的确切出品年代。

传统技术中，通常采用人工的方式，由对某作者的文学风格较熟悉的学者或专家根据文学作品的文字风格对其进行鉴定，鉴定结果通常依赖人的文学鉴定经验，因此准确度不高。

发明内容

基于此，有必要提供一种能提高准确度的文学作品出品时期识别方法。

一种文学作品出品时期识别方法，包括：

获取输入的文学作品，对所述输入的文学作品进行分词，得到分词词组及其对应的目标出现频率；

根据所述目标出现频率计算所述输入的文学作品的信息熵；

获取时段样本作品及其信息熵；

通过比较所述输入的文学作品的信息熵和所述时段样本作品的信息熵识别所述输入的文学作品出品的时间区间。

在其中一个实施例中，所述根据所述目标出现频率计算所述输入的文学作品的信息熵的步骤之前还包括：

获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率；

根据所述全局出现频率计算所述分词词组的信息量。

在其中一个实施例中，所述根据所述目标出现频率计算所述输入的文学作品的信息熵的步骤为：

根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵。

在其中一个实施例中，所述获取时段样本作品及其信息熵的步骤之前还包括：

根据时间区间对所述全局样本作品进行划分，得到与时间区间对应的时段样本作品；

对时段样本作品进行分词，得到分词词组及其对应的时段出现频率。

在其中一个实施例中，所述获取时段样本作品及其信息熵的步骤包括：

根据所述分词词组的时段出现频率及其对应的信息量计算所述时段样本作品的信息熵。

此外，还有必要提供一种能提高准确度的文学作品出品时期识别装置。

一种文学作品出品时期识别装置，包括：

目标分词模块，用于获取输入的文学作品，对所述输入的文学作品进行分词，得到分词词组及其对应的目标出现频率；

目标信息熵计算模块，用于根据所述目标出现频率计算所述输入的文学作品的信息熵；

时段信息熵获取模块，用于获取时段样本作品及其信息熵；

通过比较所述输入的文学作品的信息熵和所述时段样本作品的信息熵识别所述输入的文学作品出品的时间区间。

在其中一个实施例中，所述装置还包括全局分词模块，用于获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率；根据所述全局出现频率计算所述分词词组的信息量。

在其中一个实施例中，所述目标信息熵计算模块还用于根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵。

在其中一个实施例中，所述装置还包括时段分词模块根据时间区间对所述全局样本作品进行划分，得到与时间区间对应的时段样本作品；对时段样本作品进行分词，得到分词词组及其对应的时段出现频率。

在其中一个实施例中，所述装置还包括时段信息熵计算模块，还用于根据所述分词词组的时段出现频率及其对应的信息量计算所述时段样本作品的信息熵。

上述文学作品出品时期识别方法及装置，先对输入的文学作品进行了分词，然后根据分词得到的分词词组的出现频率计算输入的文学作品的信息熵，并通过比较信息熵得到最接近的时段样本作品，从而得到相应的时间区间。由于相同作者相同时期的文学作品通常文风相同，用词习惯通常类似，因此根据香农的信息论原理，其信息熵也较相似，因此，准确度较高。

附图说明

图1为一个实施例中文学作品出品时期识别方法的流程图；

图2为一个实施例中文学作品出品时期识别装置的结构示意图；

图3为另一个实施例中文学作品出品时期识别装置的结构示意图。

具体实施方式

在一个实施例中，如图1所示，一种文学作品出品时期识别方法，包括以下步骤：

步骤S102，获取输入的文学作品，对输入的文学作品进行分词，得到分词词组及其对应的目标出现频率。

输入的文学作品为出品年代模糊需要鉴定和识别的文学作品。目标出现频率即对输入的文学作品进行分词后得到的分词词组在输入的文学作品中的出现频率。

对于中文的文学作品，可通过常用的汉字词库对输入的文学作品进行分词，例如，可通过IKAnalyzer、Paoding、jcseg或friso等分词工具或分词组件提供的 API（Application Program Interface，应用程序接口）对输入的中文的文学作品进行分词。

对于英文的文学作品，则通过英文单词之间的空格将英文的文学作品进行分词。

在一个实施例中，对文学作品分词后，还可对得到的分词词组进行过滤，去除助词或无意义的副词。可预先配置助词或无意义的副词的过滤列表，将存在于该过滤列表中的分词词组的过滤掉。

在一个实施例中，可通过公式：

$W_{i} = \frac{r_{i}}{Σ_{i = 1}^{n} r_{i}}$

得到目标出现频率。其中，W_i为第i个分词词组在输入的文学作品中的目标出现频率，r_i为第i个分词词组在输入的文学作品中的出现次数，n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。

步骤S104，根据目标出现频率计算输入的文学作品的信息熵。

信息熵即根据香农（Claude Elwood Shannon）的信息论原理对文学作品整体的信息含量的定义。

在一个实施例中，根据目标出现频率计算输入的文学作品的信息熵的步骤之前还可获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率，根据全局出现频率计算分词词组的信息量。

全局样本作品即预先选取的与输入的文学作品具有相同作者的作为样本的多个文学作品。全局样本作品中各个样本作品对应的时间区间为已知的时间区间。例如，可将某个作者具有确切年代的所出品的多个文集、诗集等文学作品作为全局样本作品。对于该作者未收纳到文集或诗集中的出品年代模糊的文学作品，则可作为输入的文学作品对其出品时期进行识别。

信息量即某个分词词组所附带的信息含量的定义。

在本实施例中，可根据公式：

$I_{j} = - \log_{b} \frac{s_{i}}{Σ_{i = j}^{m} s_{j}}$

计算分词词组的信息量。其中，I_j为计算得到的全局样本作品中第j个分词词组的信息量，s_j为第j个分词词组在全局样本作品中的出现频率，m为全局样本作品中内容不同的分词词组的总个数，b为预设的对数底系数，通常可以为2、 10或e。

可缓存计算得到的全局样本作品中分词词组的信息量。在执行过程中，当缓存中已存储有全局样本作品中分词词组的信息量时，可在缓存中直接获取，从而不用重复计算。

在本实施例中，根据目标出现频率计算输入的文学作品的信息熵的步骤可具体为根据分词词组的目标出现频率及其对应的信息量计算输入的文学作品的信息熵。

在本实施例中，可根据公式：

$H_{1} = Σ_{i = 1}^{n} W_{i} I_{i}$

计算输入的文学作品的信息熵。其中，H₁为输入的文学作品的信息熵，W_i为输入的文学作品中第i个分词词组的出现频率，I_i为该第i个分词词组的信息量， n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。

需要说明的是，第i个分词词组的信息量I_i可通过前述的计算信息量的公式计算得到，输入的文学作品的第i个分词词组即为全局样本作品中的某个分词词组，也就是说该公式中的第i个分词词组与前述公式中的第j个分词词组为内容相同的分词词组。

在一个实施例中，若输入的文学作品中的第i个分词词组在全局样本作品中不存在，则可将其对应的信息量设置为预设值。也就是说，若输入的文学作品中出现了全局样本作品中没有的词组，则可将该新出现的词组的信息量设置为预设的信息量阈值，从而便于计算信息熵。例如，若将信息量阈值设置为0，则表示忽略该新出现的词组，若将信息量阈值设置为较大的常数，则表示新出现的词组带来较大的信息熵。

在一个实施例中，在获取全局样本作品时，可先获取输入的文学作品的篇幅或字数，然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作品添加到全局样本作品中，从而减少篇幅或篇幅所代表的文学形式对作者用词产生的影响，提高识别的准确率。

步骤S106，获取时段样本作品及其信息熵。

时段样本作品即全局样本作品中对应了时间区间的一组文学作品的集合。可根据预设的时间区间将全局样本作品划分为多个时段样本作品。

在本实施例中，获取时段样本作品及其信息熵的步骤之前还可根据时间区间对全局样本作品进行划分，得到与时间区间对应的时段样本作品，对时段样本作品进行分词，得到分词词组及其对应的时段出现频率。

时段出现频率即对时段样本作品进行分词后得到的分词词组在该时段样本作品中的出现频率。

在本实施例中，可根据公式：

$T_{k} = \frac{q_{k}}{Σ_{k = 1}^{l} q_{k}}$

得到时段出现频率。其中，T_k为第k个分词词组在时段样本作品中的时段出现频率，q_k为第k个分词词组在时段样本作品中的出现次数，l为对时段样本作品进行分词后得到的内容不同的分词词组的总个数。

进一步的，获取时段样本作品及其信息熵的步骤可包括根据分词词组的时段出现频率及其对应的信息量计算时段样本作品的信息熵。

在本实施例中，可根据公式：

$H_{t} = Σ_{k = 1}^{l} T_{k} I_{k}$

计算时段样本作品的信息熵。其中，H_t为时段样本作品的信息熵，T_k为时段样本作品中第k个分词词组在该时段样本作品中的时段出现频率，I_k为该第k 个分词词组的信息量，l为对时段样本作品进行分词后得到的内容不同的分词词组的总个数。

可根据预设的时间区间（例如，每年、每十年等）将全局样本作品划分为多个时段样本作品，每个时段样本作品对应相应的时间区间。可根据上述公式计算上述划分得到的多个时段样本作品的信息熵。

可缓存计算得到的时段样本作品的信息熵。在执行过程中，当缓存中已存储有时段样本作品的信息熵时，可在缓存中直接获取，从而不用重复计算。

步骤S108，通过比较输入的文学作品的信息熵和时段样本作品的信息熵识别输入的文学作品出品的时间区间。

在本实施例中，可获取与输入的文学作品的信息熵差值最小的时段样本作品，并获取时段样本作品对应的时间区间。该时间区间即为识别得到的输入的文学作品出品的时间区间。

在本实施例中，可通过比较H₁和H_t，获取使得|H_t-H₁|的值最小的H_t值，然后获取该H_t对应的时段样本作品及其对应的时间区间，该时间区间即为识别得到的输入的文学作品出品的时间区间。

在一个实施例中，如图2所示，一种文学作品出品时期识别装置，包括目标分词模块102、目标信息熵计算模块104、时段信息熵获取模块106以及时段识别模块108，其中：

目标分词模块102，用于获取输入的文学作品，对输入的文学作品进行分词，得到分词词组及其对应的目标出现频率。

对于英文的文学作品，则通过英文单词之间的空格将英文的文学作品进行分词。

在一个实施例中，对文学作品分词后，目标分词模块102还可用于对得到的分词词组进行过滤，去除助词或无意义的副词。可预先配置助词或无意义的副词的过滤列表，将存在于该过滤列表中的分词词组的过滤掉。

在一个实施例中，目标分词模块102可用于通过公式：

$W_{i} = \frac{r_{i}}{Σ_{i = 1}^{n} r_{i}}$

目标信息熵计算模块104，用于根据目标出现频率计算输入的文学作品的信息熵。

信息熵即根据香农（Claude Elwood Shannon）的信息论原理对文学作品整体的信息含量的定义。

在一个实施例中，如图3所示，文学作品出品时期识别装置还包括全局分词模块110，用于获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率，根据全局出现频率计算分词词组的信息量。

信息量即某个分词词组所附带的信息含量的定义。

在本实施例中，全局分词模块110可用于根据公式：

$I_{j} = - \log_{b} \frac{s_{j}}{Σ_{i = j}^{m} s_{j}}$

在本实施例中，目标信息熵计算模块104可用于根据分词词组的目标出现频率及其对应的信息量计算输入的文学作品的信息熵。

在本实施例中，目标信息熵计算模块104可用于根据公式：

$H_{1} = Σ_{i = 1}^{n} W_{i} T_{i}$

时段信息熵获取模块106，用于获取时段样本作品及其信息熵。

时段样本作品即全局样本作品中对应了时间区间的一组文学作品的集合。可根据预设的时间区间将全局样本作品划分为多个时段样本作品。

在本实施例中，如图3所示，文学作品出品时期识别装置还包括时段分词模块112，用于根据时间区间对全局样本作品进行划分，得到与时间区间对应的时段样本作品，对时段样本作品进行分词，得到分词词组及其对应的时段出现频率。

时段出现频率即对时段样本作品进行分词后得到的分词词组在该时段样本作品中的出现频率。

在本实施例中，时段分词模块112可用于根据公式：

$T_{k} = \frac{q_{k}}{Σ_{k = 1}^{l} q_{k}}$

进一步的，如图3所示，文学作品出品时期识别装置还包括时段信息熵计算模块114，用于根据分词词组的时段出现频率及其对应的信息量计算时段样本作品的信息熵。

在本实施例中，时段信息熵计算模块114可用于根据公式：

$H_{t} = Σ_{k = 1}^{l} T_{k} I_{k}$

可缓存计算得到的时段样本作品的信息熵。在执行过程中，当缓存中已存储有时段样本作品的信息熵时，可在缓存中直接获取，从而不用重复计算。

时段识别模块108，用于通过比较输入的文学作品的信息熵和时段样本作品的信息熵识别输入的文学作品出品的时间区间。

在本实施例中，时段识别模块108可用于获取与输入的文学作品的信息熵差值最小的时段样本作品，并获取时段样本作品对应的时间区间。该时间区间即为识别得到的输入的文学作品出品的时间区间。

在本实施例中，时段识别模块108可用于通过比较前述计算得到的H₁和H_t，获取使得|H_t-H₁|的值最小的H_t值，然后获取该H_t对应的时段样本作品及其对应的时间区间，该时间区间即为识别得到的输入的文学作品出品的时间区间。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 文学作品出品时期识别方法及装置 [P] . 中国专利： CN103116572B . 2015.10.21
2. 文学作品出品时期识别方法及装置 [P] . 中国专利： CN103116572A . 2013-05-22
3. LITERARY WORK COPYING MANAGEMENT SYSTEM, LITERARY WORK COPYING DEVICE, AND DEVICE AND METHOD OF MANAGING LITERARY WORK COPYING [P] . 日本专利： JP2003296486A . 2003-10-17

机译：文学作品复制管理系统，文学作品复制装置以及管理文学作品复制的装置和方法
4. LITERARY WORK READING DEVICE, LITERARY WORK PROVIDING SUPPORT DEVICE, LITERARY WORK PROVIDING SUPPORT SYSTEM AND PROGRAM THEREFOR [P] . 日本专利： JP2003296593A . 2003-10-17

机译：文学作品阅读设备，提供文学作品支持的装置，提供文学作品支持系统及其程序
5. COVER MECHANISM FOR CONTENT DISCHARGING PRODUCT AND AEROSOL TYPE PRODUCT AND PUMP TYPE PRODUCT PROVIDED WITH COVER MECHANISM FOR CONTENT DISCHARGING PRODUCT [P] . 日本专利： JP2016011139A . 2016-01-21

机译：内容物排出品的盖机构，气溶胶类产品以及具有内容物排出品的盖泵型的泵装置