公开/公告号CN104216872A
专利类型发明专利
公开/公告日2014-12-17
原文格式PDF
申请/专利权人 腾讯科技(深圳)有限公司;
申请/专利号CN201310214058.1
申请日2013-05-31
分类号G06F17/27;
代理机构深圳中一专利商标事务所;
代理人张全文
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室
入库时间 2023-12-17 03:04:46
法律状态公告日
法律状态信息
法律状态
2017-12-01
授权
授权
2015-09-23
实质审查的生效 IPC(主分类):G06F17/27 申请日:20130531
实质审查的生效
2014-12-17
公开
公开
技术领域
本发明属于计算机技术领域,尤其涉及一种识别网络小说中垃圾章节的方 法及装置。
背景技术
网络小说是一种新兴的小说体裁,随着网络的快速发展而出现,网络小说 以网络为基础平台,网络小说作者在小说网站发布小说,并不断对小说进行更 新,以使网络读者进行阅读,其特点为风格自由,文体不限,发表阅读方式较 为简单。然而,很多网络小说中包括很多的垃圾章节,这些垃圾章节的内容与 小说内容本身并不相干,例如:网站广告、作者广告、新书推荐等,十分影响 小说的阅读。
现有技术,通常采用人工查询或者关键字查询的方式,去除网络小说中的 垃圾章节,然而,对于人工查询方式,查询速度较慢,当网络小说数量较多的 时候,需要花费大量的人工成本,花费很长时间去处理查找垃圾章节,因此, 人工查询方式查询速度慢,无法及时有效的发现垃圾章节;而使用关键字进行 查询的方式,虽然可以发现包括预设垃圾关键词的网络小说,但由于网络小说 更新速度很快,小说中的垃圾关键字也不断更新,因此,关键字查询方式也无 法及时发现网络小说中的垃圾章节。综上,现有技术无法及时、有效的去除网 络小说中垃圾章节。
发明内容
本发明实施例的目的在于提供一种识别网络小说中垃圾章节的方法,旨在 解决现有技术无法及时、有效的去除网络小说中垃圾章节问题。
为了实现上述目的,本发明实施例提供如下技术方案:
本发明第一方面提供了一种识别网络小说中垃圾章节的方法,所述方法包 括:
抓取网络小说数据;
计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;
获取每个ID对应的网络小说数据的章节名称;
统计并计算相同章节名称对应的ID数量;
识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
本发明第二方面提供了一种识别网络小说中垃圾章节的装置,所述装置包 括:
抓取单元,用于抓取网络小说数据;
计算单元,用于计算每一网络小说数据的ID,所述ID用于唯一标识一网 络小说;
获取单元,用于获取每个ID对应的网络小说数据的章节名称;
计算单元,用于统计并计算相同章节名称对应的ID数量;
识别单元,用于识别符合预设条件的章节名称和/或ID数量的章节为垃圾 章节。
本发明实施例与现有技术相比,有益效果在于:抓取网络小说数据,计算 每一网络小说数据的ID,所述ID用于唯一标识一本网络小说,获取每个ID对 应的网络小说数据的章节名称,统计并计算相同章节名称对应的ID数量,识别 符合预设条件的章节名称和/或ID数量的章节为垃圾章节。使得不需要人工参 与,即可实现可以及时、有效识别网络小说中垃圾章节。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中 所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的识别网络小说中垃圾章节的方法的实现的流 程图;
图2是本发明实施例二提供的识别网络小说中垃圾章节的方法的实现的流 程图;
图3是本发明实施例三提供的识别网络小说中垃圾章节的装置的结构图;
图4是本发明实施例四提供的识别网络小说中垃圾章节的装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
本实施例中,通过计算每一网络小说数据的ID,统计并计算相同章节名称 对应的ID数量,识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
以下结合具体实施例对本发明的实现进行详细描述:
实施例一
图1示出了本发明实施例一提供的识别网络小说中垃圾章节的方法的实现 的流程图,详述如下:
在S101中,抓取网络小说数据;
在S102中,计算每一网络小说数据的标识(Identify,ID),所述ID用于 唯一标识一网络小说;
本实施例中,优选的所述ID为小说名,或者小说名和作者名,其它的可 以唯一标识一本小说的数据均可以作为小说的网络数据。
在S103中,获取每个ID对应的网络小说数据的章节名称;
本实施例中,由于同一网络小说数据可能存储在不同的站点,因此,相同 ID的网络小说可以认为是相同的小说,为了避免相同ID的小说数据被多次统 计,而影响后续统计结果,S103优选的可以采用以下方式实现:获取不同ID 对应的网络小说数据的章节名称,具有相同ID对应的网络小说数据可以只获取 一次。
本实施例中,所述章节名称可以包括章节名称的文字信息和/或数字信息。
本实施例中,获取后的每个ID对应的章节名称可以采用以下方式表示: {id1,chapterA}、{id1,chapterB}、{id1,chapterC}、{id2,chapterA’}、{id2, chapterB’}、{id2,chapterC’},…,…。
在S104中,统计并计算相同章节名称对应的ID数量;
本实施例中,统计S103中获取的章节名称中的每一章节对应的ID数量 如下:{chapterA,{id1,id3,…}}、{chapterB,{id1,id5,…}}、{chapterC,{id2, id3,…}},…;则根据所述统计结果,计算每个章节名对应的ID数量(即相同章 节名称出现在多少本小说中)具体为:{chapterA,n1},{chapterB, n2},{chapterC,n3},…。
在S105中,识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。
本实施例中,抓取网络小说数据,计算每一网络小说数据的ID,所述ID 用于唯一标识一本网络小说,获取每个ID对应的网络小说数据的章节名称,统 计并计算相同章节名称对应的ID数量,识别符合预设条件的章节名称和/或ID 数量的章节为垃圾章节。使得不需要人工参与,即可实现可以及时、有效识别 网络小说中垃圾章节。
实施例二
图2示出了本发明实施例一提供的识别网络小说中垃圾章节的方法的实现 的流程图,详述如下:
在S201中,抓取网络小说数据;
在S202中,通过信息摘要算法5(Message Digest Algorithm 5,MD5),计算 每一网络小说数据的ID,所述ID用于唯一标识一网络小说;
在S203中,获取每个ID对应的网络小说数据的章节名称;
在S204中,统计并计算相同章节名称对应的ID数量;
在S205中,识别章节名称大于预设长度和/或ID数量大于预设数量的章节 为垃圾章节。
其中,可以识别章节名称大于预设长度m和/或ID数量大于预设数量n的 章节为垃圾章节,其中,所述m和n为为整数,且根据实际需要进行设定,其 中,垃圾章节可以表示为:{chapterD,chapterE,ChapterK,…}。
可选的,为了避免将一些非垃圾章节的小说数据识别为垃圾章节,所述 S205优选的为:
S205a、识别符合预设条件的章节名称和/或ID数量的章节为疑似垃圾章 节;
S205b、将所述疑似垃圾章节的章节名称在预设白名单中进行匹配,将与 所述预设白名单中存储的关键词的匹配度小于预设阈值的章节名称对应的疑似 垃圾章节识别为垃圾章节,所述预设白名单存储合法的关键词。
其中,当章节名称与所述预设白名单中存储的关键词的匹配度小于预设阈 值时,说明该章节名称为垃圾章节的概率已经很高,所以可以认为该章节为垃 圾章,通过白名单进一步对疑似垃圾章节进行处理,可以有效提供高垃圾章节 识别的准确率。
通过将所述大于预设阈值的章节名称更新至所述预设白名单,可以不断对 白名单进行更新,从而及时与互联网网络数据的更新同步。
可选的,除了预设白名单的实现方式,S205b还可以将所述疑似垃圾章节 的章节名称在预设白名单中进行匹配,将与所述预设白名单中存储的关键词的 匹配度大于预设阈值的章节名称对应的疑似垃圾章节识别为垃圾章节,所述预 设黑名单存储非法的关键词。
进一步,可以将与所述预设黑名单中存储的关键词的匹配度大预设阈值的 章节名称更新至所述预设白名单中。
本实施例中,根据同名章节的小说数量的多少,以及章节名称的长短信息, 发现小说数据中的垃圾章节,实现及时、有效识别小说中的垃圾章节数据。
实施例三
图3是本发明实施例三提供的识别网络小说中垃圾章节的装置的结构图, 为了便于说明,仅示出了与本发明实施例相关的部分,该装置可以是内置于终 端设备中的软件单元、硬件单元或者软硬结合单元。
所述装置包括:抓取单元31、计算单元32、获取单元33、计算单元34及 识别单元35。
抓取单元31,用于抓取网络小说数据;
计算单元32,用于计算每一网络小说数据的ID,所述ID用于唯一标识一 网络小说;
获取单元33,用于获取每个ID对应的网络小说数据的章节名称;
计算单元34,用于统计并计算相同章节名称对应的ID数量;
识别单元35,用于识别符合预设条件的章节名称和/或ID数量的章节为垃 圾章节。
可选的,所述ID为小说名,或者小说名和作者名。
可选的,所述计算单元34,用于通过MD5,计算每一网络小说数据的ID。
可选的,所述识别单元35,用于识别章节名称大于预设长度和/或ID数量 大于预设数量的章节为垃圾章节。
本发明实施例提供的识别网络小说中垃圾章节的装置可以使用在前述对应 的方法实施例一中,详情参见上述实施例一的描述,在此不再赘述。
实施例四
图4是本发明实施例三提供的识别网络小说中垃圾章节的装置的结构图, 为了便于说明,仅示出了与本发明实施例相关的部分,该装置可以是内置于终 端设备中的软件单元、硬件单元或者软硬结合单元。
所述装置包括:抓取单元41、计算单元42、获取单元43、计算单元44及 识别单元45。
本实施例与实施例三的区别在于:
所述识别单元45包括:识别模块451和匹配模块452。
识别模块451,用于识别符合预设条件的章节名称和/或ID数量的章节为 疑似垃圾章节;
匹配模块452,用于将所述疑似垃圾章节的章节名称在预设白名单中进行 匹配,将与所述预设白名单中存储的关键词的匹配度小于预设阈值的章节名称 对应的疑似垃圾章节识别为垃圾章节,所述预设白名单存储合法的关键词。
所述匹配模块452,还用于将与所述预设白名单中存储的关键词的匹配度 大于预设阈值的章节名称更新至所述预设白名单中。
本发明实施例提供的识别网络小说中垃圾章节的装置可以使用在前述对应 的方法实施例二中,详情参见上述实施例二的描述,在此不再赘述。
值得注意的是,上述实施例中,所包括的各个单元只是按照功能逻辑进行 划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各 功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范 围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部 分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计 算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
机译: 网络小说章节清单的评估方法和装置
机译: 用练习随机识别圣经中各章节的方法
机译: 用于识别垃圾收集系统的充电站中的垃圾收费器的读卡器类型识别装置