公开/公告号CN102508911A
专利类型发明专利
公开/公告日2012-06-20
原文格式PDF
申请/专利权人 江苏联著实业有限公司;
申请/专利号CN201110358829.5
发明设计人 王楠;
申请日2011-11-14
分类号G06F17/30(20060101);
代理机构32224 南京纵横知识产权代理有限公司;
代理人董建林;许婉静
地址 210006 江苏省南京市中山南路501号通服大厦12楼
入库时间 2023-12-18 05:34:25
法律状态公告日
法律状态信息
法律状态
2016-04-13
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20111114
专利权人的姓名或者名称、地址的变更
2014-06-25
授权
授权
2012-07-18
实质审查的生效 IPC(主分类):G06F17/30 申请日:20111114
实质审查的生效
2012-06-20
公开
公开
技术领域
本发明涉及一种网站知识结构分析系统,属于网络计算机系统。
背景技术
申请人申请的一种半自动化的学习式OWL建模系统,其包括人工处理模块、倒排索引建库模块和OWL模型比较模块,其中:人工处理模块,以人工操作的方式建立OWL知识模型作为种子模型;倒排索引建库模块,从互联网上采集信息并将其转换成OWL本体实例,提取该OWL本体实例的本体元,建立本体元的倒排索引数据库。本体元是最小的不可分解本体。倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置;OWL模型比较模块,对种子模型和倒排索引数据库中的本体元进行比较,将属于同一知识领域的本体元的属性补充到种子模型中以完善种子模型。优选的,其还包括OWL本体模型库,用于存储所述人工处理模块建立的种子模型和所述倒排索引建库模块转换后的OWL本体实例。优选的,所述倒排索引建库模块包括以下模块:原始文档管理系统,负责通过搜索引擎从互联网采集各种信息;OWL本体转换模块,负责将原始文档管理系统采集的信息转换成OWL本体实例,并存入OWL本体实例库;提炼OWL本体元模块,提炼OWL本体实例库中所有OWL本体实例的本体元;本体实例倒排索引模块,建立提炼OWL本体元模块获得的本体元的倒排索引,并存入所述倒排索引数据库。优选的,所述人工处理模块还包括辞典维护模块,负责建立并维护OWL本体辞典,所述OWL本体转换模块根据所述OWL本体辞典将原始文档管理系统采集的信息转换成OWL本体实例。优选的,所述人工处理模块还包括OWL兼容性规则人工维护模块,负责建立和维护OWL兼容性规则库,所述OWL模型比较模块根据所述OWL兼容性规则库中的OWL兼容性规则对所述种子模型和倒排索引数据库中的本体元进行比较。优选的,所述人工处理模块还包括疑难问题人工处理模块,负责处理所述OWL模型比较模块中的异常,并人工调整所述种子模型。
上述的自动化的学习式OWL建模系统,非常适合于对有些结构化规律的信息进行知识建模,比如:产品信息、用户信息、企业信息等。但是互联网知识模型需要不断完善,如何能够实现互联网知识模型的自动完善是进一步要解决的问题。
发明内容
本发明所要解决的技术问题是如何使互联网知识模型不断完善,达到获得互联网知识结构的目的。
为解决上述技术问题,本发明提供一种基于学习式OWL建模的网站知识结构分析系统,其特征在于,包括以下各功能模块:
原始文档管理系统模块:存储、管理从搜索引擎采集来的互联网网站结构信息;
OWL转换模块:将原始文档管理系统提供的网站结构文档做OWL转换,并存入本体实例数据库;
提炼OWL本体元模块:从本体实例数据库每一个本体实例中提取本体元,并送本体元倒排模块,所述本体元为最小的不可分解本体;一个本体是一组概念及其相互关系,比如:公司结构:总经理à总监;本体实例是一个本体的具体例子,比如:XX集团:XXX总经理àXXX总监。
本体实例倒排索引模块:完成对本体元的倒排索引,并存入本体元倒排索引数据库;
OWL模型比较模块:以人工建造的互联网知识结构OWL种子知识模型为基础,对本体元倒排索引表中的每一个本体元进行比对,利用人工维护的兼容性规则判断哪些本体元属于种子知识模型的同一知识范畴,判断一个新的频道或栏目在互联网知识结构中的位置和意义,无法判断时,向人工处理模块抛出异常; 种子知识模型为最原始的、往往也是最小的知识模型;
疑难问题人工处理模块:受理OWL模型比较模块抛出的异常,人工调整网站知识模型;
模型更新模块:根据受理OWL模型比较模块的合理结果和人工干预的结果,对种子知识模型进行修改、升级并存入互联网知识结构OWL模型库;
进一步地,还包括兼容性规则模块:负责人机交互,完成对兼容性规则的维护,结果存入兼容性规则库;
进一步地,还包括OWL本体建模、辞典的人工维护模块:用于维护OWL种子知识模型和OWL辞典库,OWL知识模型和OWL辞典在OWL转换过程中也要用到。
本发明所达到的有益效果:每一个互联网网站都有一套由栏目、频道、专题、超链接组成的导航体系。它既代表该网站的知识分类,也代表了网站经营者希望网民如何浏览其网站的导读思路。利用搜索引擎获得尽可能多的互联网网站导航结构,同时,利用半自动化学习式OWL建模工具,先人工建立一个互联网知识结构的种子模型,然后,对获得的所有网站导航结构进行“学习”,使互联网知识模型不断完善,达到获得互联网知识结构的目的。
附图说明
图1为本发明的基于学习式OWL建模的网站知识结构分析系统结构示意图。
具体实施方式
本发明的网站知识结构分析系统包括:
1)从搜索引擎采集来的互联网网站结构信息进入原始文档管理系统;
2)OWL转换模块将原始文档管理系统提供的网站结构文档做OWL转换(参见专利《基于OWL的互联网文本分析与OWL转换器》),并存入本体实例数据库;
3)提炼OWL本体元模块从本体实例库每一个本体实例中提取本体元(即:最小的不可分解本体),并送本体元倒排模块;
4)本体实例倒排索引模块完成对本体元的倒排索引(参见专利《一种基于OWL的倒排索引方法》),并存入本体元倒排索引库;
5)OWL模型比较模块,以人工建造的互联网知识结构OWL种子知识模型为基础,对本体元倒排索引表中的每一个本体元进行比对,利用人工维护的兼容性规则判断哪些本体元属于种子知识模型的同一知识范畴,判断一个新的频道或栏目在互联网知识结构中的位置和意义,无法判断时,向人工处理模块抛出异常;
6)疑难问题人工处理模块受理OWL模型比较模块抛出的异常,人工调整网站知识模型;
7)模型比较的合理结果和人工干预的结果送到模型更新模块对种子模型进行修改、升级,存入OWL模型库;
8)兼容性规则模块负责人机交互,完成对兼容性规则的维护,结果存入兼容性规则库;
9)OWL种子模型和OWL辞典库都是通过“OWL本体建模、辞典的人工维护”模块维护的,OWL知识模型和OWL辞典在OWL转换过程中也要用到。
本发明系统的工作流程如下:
1.知识管理员通过人工建模工具建立一个互联网知识结构种子模型;
2.通过搜索引擎获取互联网网站的导航结构信息,并存入原始文档管理系统;
3.系统对原始信息做OWL本体实例转换、本体元倒排索引,并存入本体元倒排索引表;
4.系统利用人工创建的种子知识模型与系统初步提炼的(存在倒排索引表中的)每一个本体元进行模型对比,在兼容性规则的帮助下,识别同类知识;
5.把符合“合理知识”标准的本体元直接输出给OWL模型更新模块,把有“疑问”的知识提交人工处理模块,把无关的知识抛弃;
6.知识管理员根据系统的提问,对互联网知识结构模型做适当的调整,并输出给OWL模型更新模块;
7.OWL模型更新模块负责修改、升级互联网知识结构模型;
8.针对不同的互联网网站,不断重复步骤1到7,使基于OWL的互联网知识结构模型越来越完善;
9.需要时,人工调整兼容性规则、OWL辞典库、甚至OWL互联网知识结构模型本身。
以上已以较佳实施例公开了本发明,然其并非用以限制本发明,凡采用等同替换或者等效变换方式所获得的技术方案,均落在本发明的保护范围之内。
机译: 基于打印建模的知识产权服务驱动系统基于打印建模的知识产权服务驱动的应用程序
机译: 一个系统通过SNS实现主动学习的基于网站(基于网站)的HTML中的内容
机译: 使用Word处理器创作工具生成具有嵌入式知识管理功能的自定义知识捕获网站的系统和方法