首页> 中国专利> 一种从新闻列表页抽取新闻记录元数据的方法及系统

一种从新闻列表页抽取新闻记录元数据的方法及系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种从新闻列表页抽取新闻记录元数据的方法及系统。本发明首先获取目标新闻列表页的网页源代码，按照所述网页源代码对应的HTML文本顺序生成HTML标签树；然后遍历所述HTML标签树，计算每个HTML标签子树的文本链接比得分，将文本链接比得分大于设定阈值的标签子树进行合并，获取一棵最大候选子树；最后从所述最大候选子树中抽取新闻记录元数据列表。采用本发明，用户只需输入新闻列表页，无需配置模板即可得到新闻记录，完全实现了新闻资讯网站列表页新闻记录抽取的自动化、无人化。而且无需关心新闻网站将来是否改版，极大降低了维护和使用成本。

著录项

公开/公告号CN102467501B

专利类型发明专利
公开/公告日2013-09-18

原文格式PDF
申请/专利权人北大方正集团有限公司;北京大学;北京北大方正电子有限公司;
展开▼

申请/专利号CN201010530643.9
发明设计人赵继广;于晓明;杨建武;吴新丽;
展开▼

申请日2010-10-29
分类号
代理机构北京天悦专利代理事务所(普通合伙);
代理人田明
地址 100871 北京市海淀区成府路298号方正大厦
入库时间 2022-08-23 09:16:03

法律信息

法律状态公告日

法律状态信息

法律状态
2013-09-18

授权

授权
2012-07-04

实质审查的生效 IPC(主分类):G06F 17/30 申请日:20101029

实质审查的生效
2012-05-23

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种从新闻列表页抽取新闻记录元数据的方法及系统 [P] . 中国专利： CN102467501B . 2013.09.18
2. 一种新闻列表页判断方法及筛选新闻列表页的方法 [P] . 中国专利： CN104182482B . 2018.05.22
3. IPTV service system for providing news contents, method for transmitting news contents, method for receiving news contents, and recording medium includeing program for requesting and receiving news contents [P] . 韩国专利： KR100860464B1 . 2008-09-25

机译：提供新闻内容的iptv服务系统，新闻内容的发送方法，新闻内容的接收方法以及包括请求和接收新闻内容的程序的记录介质
4. NEWS PROVIDING SERVICE SYSTEM AND A METHOD THEREFOR AND A RECORDING MEDIUM STORING THE PROGRAM PERFORMING THE METHOD, CAPABLE OF PROVIDING E-PRESS ABOUT EACH PERSON OR GROUP [P] . 韩国专利： KR20090114165A . 2009-11-03

机译：提供新闻的服务系统和方法，以及执行该方法的程序的记录介质，可以为每个人或每个组提供电子新闻
5. A METHOD AND SYSTEM FOR NEWS STORY SEGMENTATION OF TELECAST NEWS VIDEOS [P] . IN2011MU02323A . 2013-02-22

机译：一种电视新闻视频新闻故事分类的方法和系统