首页> 中国专利> 一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质

一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质

摘要

本发明提出一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质,该方法可以有效获取新闻信息。在新闻信息提取任务中,传统的模型依赖于HTML标签,难以扩展至不同来源的新闻网页中使用。且只能将新闻内容整体提取,不能提取多种类新闻属性信息。基于上述两个难点,本发明提出了基于多维度文本特征模型MTFE,该方法通过分析新闻网页的纯文本内容得到写作特征、位置特征和语义特征,通过卷积神经网络和长短期记忆模型学习出多维度的文本特征,从而提高文本特征的置信度。实验显示,本发明中的方法显著提高了多来源新闻网页提取多种属性新闻信息的效果,在10个中文数据集和5个英文数据集上均取得90%以上的F值,这证明了该方法的有效性。

著录项

  • 公开/公告号CN114647726A

    专利类型发明专利

  • 公开/公告日2022-06-21

    原文格式PDF

  • 申请/专利权人 贵州大学;

    申请/专利号CN202210214829.6

  • 发明设计人 黄瑞章;翁彬月;秦永彬;陈艳平;

    申请日2022-03-04

  • 分类号G06F16/35;G06K9/62;G06F40/216;G06F40/226;G06F40/284;G06F40/30;G06N3/04;G06N3/08;

  • 代理机构哈尔滨市阳光惠远知识产权代理有限公司;

  • 代理人刘景祥

  • 地址 550025 贵州省贵阳市花溪区花溪大道南段2708号

  • 入库时间 2023-06-19 15:43:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-21

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号