公开/公告号CN102436497A
专利类型发明专利
公开/公告日2012-05-02
原文格式PDF
申请/专利权人 江苏联著实业有限公司;
申请/专利号CN201110359688.9
发明设计人 王楠;
申请日2011-11-14
分类号G06F17/30(20060101);
代理机构32224 南京纵横知识产权代理有限公司;
代理人董建林;许婉静
地址 210006 江苏省南京市中山南路501号通服大厦12楼
入库时间 2023-12-18 04:59:56
法律状态公告日
法律状态信息
法律状态
2016-04-13
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20111114
专利权人的姓名或者名称、地址的变更
2014-12-31
授权
授权
2012-06-27
实质审查的生效 IPC(主分类):G06F17/30 申请日:20111114
实质审查的生效
2012-05-02
公开
公开
技术领域
本发明涉及一种主流媒体报道热点分析系统,属于网络计算机技术领域。
背景技术
传统的互联网新闻热点分析是以关键词组或文章被其他网站引用(转载)、被用户查询的频次来估算的。近来,利用一些短文在微博中被转发、被关注和被评论的频次统计也可以看出该短文的“热度”。对以这些关键词组、短文、文章为载体的新闻报道的热度估算是有效的,比如:对郭美美事件、两岁小孩被车撞多人路过不施救,等等。但是,这种热点分析方法无法做到概念的延伸和关联分析,比如:郭美美与中国红十字会?卡扎非之死对谁有利?欧债与世界金融危机,美国的经济对中国的影响,等等。虽然有些文章并没有直接出现某个关键词,但是它仍然说的是同一回事,使用传统的热点分析方法就会遗漏这样的文章。
发明内容
本发明所要解决的技术问题是主流媒体报道热点分析系统,将相关的热点概念聚合组成新闻热点,从而使所检索到的相关热点文章更加全面。
为解决上述技术问题,本发明提供一种基于学习式OWL建模的主流媒体报道热点分析系统,其特征在于,包括以下各功能模块:
1) OWL本体实例转换模块:对搜索引擎获得的海量新闻信息文本做OWL本体实例转换;
2) 倒排索引模块:对OWL本体实例库做本体元倒排索引,所述本体元为OWL本体实例库中最小的不可分解本体;
3)本体元频次统计模块:对OWL本体元倒排索引表做本体元频次统计,并依据频次的大小排序;
4)OWL种子模型生成模块:将排在前面的规定数量的本体元作为热点种子模型候选,并以知识模型的方式存入互联网新闻OWL模型库;种子模型为最原始的、往往也是最小的知识模型;
5)知识本体模型聚合模块:将互联网新闻OWL模型库中的每一个种子模型分别取出,与倒排索引表中的其它本体元做概念聚合,并将修改后的新闻热点知识模型存回互联网新闻OWL模型库,循环往复,直到所有的种子模型都被聚合完毕;
6)OWL热点模型统计模块:遍历互联网新闻OWL模型库,统计相关概念多的知识模型并排序,把排在前面规定数量的知识模型取出作为热点新闻知识模型;
7)新闻热点频次统计模块:通过倒排索引表查出与热点新闻知识模型对应的本体实例,再通过原始文档管理系统查出与这些本体实例对应的原始文章,并对原始文章进行传播、关注、以及评论的频次进行统计,形成热点新闻分析结果输出。
本发明所达到的有益效果:
本发明采用OWL本体模型分析的方法,把互联网新闻热点分析提升到概念层次,利用概念与概念之间的关系,将一些相关的热点概念聚合,而组成新闻热点,以此可以弥补传统热点分析方法中不全面的不足。
附图说明
图1为本发明中的基于学习式OWL建模的主流媒体报道焦点分析系统的结构示意图。
具体实施方式
本发明与传统新闻热点分析方法一样,基于OWL(网络本体语言Ontology of Web Language)知识模型的新闻热点分析系统也要首先通过搜索引擎获取海量的新闻信息,也是以传播、关注、评论的频次统计为热度估算的主要依据。所不同的是,传统的被统计对象是关键词组、短文、或文章,而本专利所采用的是基于OWL的(相关)概念组合,即:OWL知识模型。
为了获得准确的OWL知识模型,首先要对搜索引擎获得的海量新闻信息文本进行OWL本体实例转换,参见专利《基于OWL的互联网文本分析与OWL转换器》,然后,对代表海量新闻信息的OWL本体实例库做本体元倒排索引表,参见专利《一种基于OWL的倒排索引方法》,关于热点新闻的知识模型就隐含在这个本体元倒排索引表中。
本专利的关键在于,对本体元倒排索引表做本体元频次统计,并根据统计结果设定一组OWL热点种子知识模型。这里的基本假设是,在海量新闻中出现频次越高的本体元(即:基本概念),其是热点新闻载体的可能性越大。
使用这组种子知识模型对整个本体元倒排索引表做概念聚合,即:把相关的本体元聚合在一个知识模型中,各个种子模型就“膨胀”了。最后,出现频次最多、相关概念最多的OWL知识模型就被定义为热点新闻模型。
通过倒排索引表,把对应于热点新闻模型中各个本体元的本体实例及其绑定的原始文档查出来,再使用传统的传播、关注、评论的频次统计方法,对所获得的原始文章进行统计,其结果作为新闻热点分析的最终结果。具体的功能逻辑如图1所示,各功能模块及主要流程为:
1)对搜索引擎获得的海量新闻信息文本做OWL本体实例转换,参见专利《基于OWL的互联网文本分析与OWL转换器》申请号为2011102707850,申请日为2011年9月14日;
2)对OWL本体实例库做本体元倒排索引;
3)本体元频次统计模块对OWL本体元倒排索引表做本体元频次统计,并依据频次的大小排序;
4)OWL种子模型生成模块,将排在前面的规定数量的本体元作为热点种子模型候选,把它们以知识模型的格式存入互联网新闻OWL模型库;
5)知识本体模型聚合模块,将互联网新闻OWL模型库中的每一个种子模型分别取出,与倒排索引表中的其它本体元做概念聚合,并将修改后的新闻热点知识模型存回互联网新闻OWL模型库,循环往复,直到所有的种子模型都被聚合完毕;
6)OWL热点模型统计模块,遍历互联网新闻OWL模型库,统计相关概念多的知识模型并排序,把排在前面规定数量的知识模型取出作为热点新闻知识模型;
7)新闻热点频次统计模块,通过倒排索引表查出与热点新闻知识模型对应的本体实例,再通过原始文档管理系统查出与这些本体实例对应的原始文章,调用传统的统计方法,对这些热点新闻知识模型中的概念所在的文章进行传播、关注、以及评论的频次统计。最后,形成热点新闻分析结果输出。
以上已以较佳实施例公开了本发明,然其并非用以限制本发明,凡采用等同替换或者等效变换方式所获得的技术方案,均落在本发明的保护范围之内。
机译: 基于硬件结构意识的基于自适应学习的功率建模方法和系统
机译: 基于交互式AI方法的MLTM机器学习导师语言学习系统的AI开发,该方法可在学习外语时自动提供对话
机译: AI用户终端,其中包括与基于机器学习和具有自定义学习模型的计算机可读记录介质的交互式AI Agent系统相关的用户自定义学习模型