首页> 中国专利> 一种中文新闻标题及长文本内容的多类别数据集构建方法

一种中文新闻标题及长文本内容的多类别数据集构建方法

摘要

本发明公开了一种包含标题及内容的多类别的中文新闻数据集的构建方法,目的是构建一个高效的新闻数据集。该方法的步骤主要包括:新闻文本数据搜集、数据清洗、数据集划分及评价,并使用英文制表符将标签、新闻标题和新闻内容分隔开,在传统机器学习算法和深度学习算法上进行文本分类实验并引入准确率、召回率、f1‑score值进行评价,实验结果表明,本发明的数据集在这些算法上的表现非常令人满意。目前已有的一些新闻文本数据集主要问题在于数据范围窄以及数据的时效性不强。本发明针对上述情况做了改进,数据范围更广、涵盖的范围更大,并且搜集到了更新的新闻数据。在进行了以上改进以后,本发明提出的数据集在诸多算法中能够取得较好的效果。

著录项

  • 公开/公告号CN113987132A

    专利类型发明专利

  • 公开/公告日2022-01-28

    原文格式PDF

  • 申请/专利权人 长春工业大学;

    申请/专利号CN202111335878.7

  • 发明设计人 王贵参;郭晓瑄;伍俊霖;王红梅;

    申请日2021-11-12

  • 分类号G06F16/33(20190101);G06F16/335(20190101);G06F16/35(20190101);G06F16/958(20190101);G06N20/00(20190101);

  • 代理机构

  • 代理人

  • 地址 130000 吉林省长春市朝阳区延安大街2055号长春工业大学

  • 入库时间 2023-06-19 14:01:55

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号