首页> 中国专利> 基于标签和分块特征的新闻网页关键信息自动抽取方法

基于标签和分块特征的新闻网页关键信息自动抽取方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

一种基于标签和分块特征的新闻网页关键信息自动抽取方法，步骤如下：输入欲抽取新闻站点栏目的统一资源定位符(Uniform resource locator，URL)；生成目标链接样式正则表达式；下载新闻站点栏目URL对应的网页源代码；提取网页中所有链接，通过新闻链接样式正则表达式过滤出得到新闻链接；将上一步骤得到的新闻链接插入到待抽取的新闻页面URL队列；下载新闻页面URL对应的网页源代码，包括基于标签与分块特征的正文块抽取算法，基于编辑距离的新闻标题抽取，基于分块特征的新闻时间、来源抽取。本发明能够精确抽取新闻关键信息、最大化地减少抽取模板的制作和维护的工作量。

著录项

公开/公告号CN109857956B

专利类型发明专利
公开/公告日2019-12-31

原文格式PDF
申请/专利权人四川大学;
展开▼

申请/专利号CN201910072318.3
发明设计人王文贤;陈兴蜀;严丹;王海舟;王雪梅;
展开▼

申请日2019-01-25
分类号
代理机构成都禾创知家知识产权代理有限公司;
代理人裴娟
地址 610065 四川省成都市武侯区一环路南一段24号
入库时间 2022-08-23 10:47:14

法律信息

法律状态公告日

法律状态信息

法律状态
2019-12-31

授权

授权
2019-07-02

实质审查的生效 IPC(主分类):G06F 16/955 申请日:20190125

实质审查的生效
2019-07-02

实质审查的生效 IPC(主分类):G06F 16/955 申请日:20190125

实质审查的生效
2019-06-07

公开

公开
2019-06-07

公开

公开
2019-06-07

公开

公开

查看全部

相似文献

专利
中文文献
外文文献

1. 基于标签和分块特征的新闻网页关键信息自动抽取方法 [P] . 中国专利： CN109857956B . 2019.12.31
2. 基于标签和分块特征的新闻网页关键信息自动抽取方法 [P] . 中国专利： CN109857956A . 2019-06-07
3. SYSTEM METHOD FOR PROVIDING WEAK POINT ANALYSIS AND EVALUATION ON CRITICAL INFORMATION INFRASTRUCTURE SECURITY BASED ON FEATURES OF OBJECT AND LIST AND RECORDING MEDIUM STORING PROGRAM FOR EXECUTING THE SAME [P] . 韩国专利： KR20190095703A . 2019-08-16

机译：基于对象和列表的特征以及执行该任务的存储介质记录程序的关键信息基础设施安全弱点分析和评估的系统方法
4. SYSTEM METHOD FOR PROVIDING WEAK POINT ANALYSIS AND EVALUATION ON CRITICAL INFORMATION INFRASTRUCTURE SECURITY BASED ON FEATURES OF OBJECT AND LIST AND RECORDING MEDIUM STORING PROGRAM FOR EXECUTING THE SAME [P] . 韩国专利： KR102045558B1 . 2019-11-15

机译：基于对象和列表的特征以及执行该任务的存储介质记录程序的关键信息基础设施安全弱点分析和评估的系统方法
5. Method and system for dynamically providing contextually relevant news based on an article displayed on a web page [P] . 美国专利： US10452727B2 . 2019-10-22

机译：用于基于网页上显示的文章动态提供上下文相关新闻的方法和系统