首页> 中国专利> 一种中文新闻标题及长文本内容的多类别数据集构建方法

一种中文新闻标题及长文本内容的多类别数据集构建方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种包含标题及内容的多类别的中文新闻数据集的构建方法，目的是构建一个高效的新闻数据集。该方法的步骤主要包括：新闻文本数据搜集、数据清洗、数据集划分及评价，并使用英文制表符将标签、新闻标题和新闻内容分隔开，在传统机器学习算法和深度学习算法上进行文本分类实验并引入准确率、召回率、f1‑score值进行评价，实验结果表明，本发明的数据集在这些算法上的表现非常令人满意。目前已有的一些新闻文本数据集主要问题在于数据范围窄以及数据的时效性不强。本发明针对上述情况做了改进，数据范围更广、涵盖的范围更大，并且搜集到了更新的新闻数据。在进行了以上改进以后，本发明提出的数据集在诸多算法中能够取得较好的效果。

著录项

公开/公告号CN113987132A

专利类型发明专利
公开/公告日2022-01-28

原文格式PDF
申请/专利权人长春工业大学;
展开▼

申请/专利号CN202111335878.7
发明设计人王贵参;郭晓瑄;伍俊霖;王红梅;
展开▼

申请日2021-11-12
分类号G06F16/33(20190101);G06F16/335(20190101);G06F16/35(20190101);G06F16/958(20190101);G06N20/00(20190101);
代理机构
代理人
地址 130000 吉林省长春市朝阳区延安大街2055号长春工业大学
入库时间 2023-06-19 14:01:55

相似文献

专利
中文文献
外文文献

1. 一种中文新闻标题及长文本内容的多类别数据集构建方法 [P] . 中国专利： CN113987132A . 2022-01-28
2. 一种通过文本内容自动识别文本类别的方法和系统 [P] . 中国专利： CN110941718A . 2020-03-31
3. SYSTEM AND METHOD FOR THE GENERATION AND EDITING OF TEXT CONTENT IN WEBSITE BUILDING SYSTEMS [P] . 欧洲知识产权局专利： EP3718027A2 . 2020-10-07

机译：网站构建系统中文本内容的生成和编辑的系统和方法
4. SYSTEM AND METHOD FOR THE GENERATION AND EDITING OF TEXT CONTENT IN WEBSITE BUILDING SYSTEMS [P] . 美国专利： US2019163728A1 . 2019-05-30

机译：网站构建系统中文本内容的生成和编辑的系统和方法
5. SYSTEM AND METHOD FOR THE GENERATION AND EDITING OF TEXT CONTENT IN WEBSITE BUILDING SYSTEMS [P] . CA3082323A1 . 2019-06-06

机译：网站构建系统中文本内容的生成和编辑的系统和方法