法律状态公告日
法律状态信息
法律状态
2017-07-11
授权
授权
2015-04-22
实质审查的生效 IPC(主分类):G06F17/30 申请日:20141103
实质审查的生效
2015-03-25
公开
公开
技术领域
本发明属于Web数据管理技术领域,具体是一种基于学习资源片段本体的语义标注,实现对各种类型学习资源及学习资源部分片段的语义标注的面向分布式学习环境的多片段学习资源标注方法。
背景技术
电子学习平台应用的普及和社会网络应用的繁荣使得Web上聚集了越来越多的学习资源,这些数字化的学习资源具有不同的类型,如文本、视频、音频、图像等。为了方便学习者发现并使用这些资源,资源发布者一般会给学习资源添加标签。通过搜索引擎等检索服务,可发现使用与查询关键词相匹配的资源标签所标注的学习资源。学习者能否在Web上找到符合自己需求的学习资源并进行相互交流,资源语义标注的形式和访问方式起到了关键性的作用。在很多情况下,学习者希望获取的并不是完整的资源而只是一个或多个资源的片段。例如,学习者只关心某个幻灯片的部分页面,或者只需要看一个教学视频中的特定几分钟的讲解。在这种情况下,如果返回给学习者一个完整的资源是不能完全满足其要求的。因此,对学习资源的标注必须是多方位多层次的,以提高学习资源标注的准确性,同时增强学习资源的可访问性。现有的对学习资源进行语义标注的技术主要分为以下三种。
第一种,基于社会网络标签的学习资源标注。
Hend S.Al-Khalifa和Hugh C.Davis在论文“FolksAnnotation:ASemantic Metadata Tool for Annotating Learning Resources Using Folksonomiesand Domain Ontologies”(《Proceedings of the Second International Conferenceon Innovations in Information Technology》2006,1:5)中提出了使用Folksonomy即标签集合标注学习资源的方法。该方法的核心步骤包括:(1)从标签数据库中抽取标签并进行标准化;(2)产生语义元数据对学习资源进行标注。这也是基于标签的语义标注方法通常都遵循的步骤。尽管标签容易理解,但是,这类方法的主要缺陷在于标签词汇的不规范,会导致标注的语义不清楚、歧义等问题。同时这类方法也仅限于标注完整的学习资源,不支持对资源片段的标注。
第二种,基于学习本体的学习资源语义标注。
相对于标签,本体支持形式化、规范的语义,基于本体的学习资源标注方法可以克服标签语义上存在的问题。其具有和基于标签的方法相似的步骤:(1)选择可用于标注的本体;(2)使用本体词汇进行标注。学习本体的选择是这类方法的核心。杨现民和余胜泉在论文“泛在学习环境下的学习资源信息模型构建”(《中国电化教育》2010,24(9):72-78)中系统地分析了现有学习本体在描述学习资源上的能力与不足,并提出了学习元信息模型,能够相对全面的表达学习资源和学习者各个方面的特性,但是仍然没有对学习资源片段进行描述的能力。由于缺少对资源片段进行规范描述的语义元数据,因此目前基于本体的学习资源标注方法也不能满足学习者只关注部分学习资源的需求。
第三种,基于关联数据的学习资源描述与发布。
Stefan Dietze和Honq Qing Yu等人在论文“Linked Education:interlinkingeducational Resources and the Web of Data”(《In Proceedings of SAC》2012,366:372)中提出了使用关联数据(Linked Data)的形式将学习资源进行互联,从而提供了一种学习资源访问的便捷途径。关联数据形式的学习资源包含了领域本体所提供的一些语义信息,通过URI可以对资源进行访问以支持分布式的电子学习平台,同时还可以使用SPARQL语言对资源进行查询。但是查询的粒度也是针对使用URI标识的资源,在没有对学习资源片段进行URI标识的条件下,关联数据形式的学习资源组织也不能够完全满足学习者查询学习资源的需求。
发明内容
本发明的目的在于克服上述技术所存在的不足,提出一种基于学习资源片段本体,以实现根据学习者需求对Web中的学习资源进行不同粒度级别的语义标注,从而提高学习资源的使用效率,支持社会网络环境下学习过程中的自由交流的面向分布式学习环境的多片段学习资源标注方法。
为了实现上述目的,本发明所采用的技术方案是由以下步骤组成:
(1)定义资源片段本体
将学习资源片段作为标记的最小单位,根据承载学习资源的媒体类型,将学习资源分为连续型媒体资源和离散型媒体资源,若为连续型媒体资源,在其所包含的动画、音频和视频资源上定义时间片段,并将时间片段划分为时间点片段和时间区间片段;若为离散型媒体资源,在其所包含的图像资源上定义空间片段、在非结构化文本资源上定义非结构化段落片段、在结构化文本资源上定义结构化片段,并将结构化片段进一步划分为结构化查询片段、路径片段和资源描述框架三元组查询片段;用上述定义的时间点片段、时间区间片段、空间片段、非结构化段落片段、结构化查询片段、路径片段、资源描述框架三元组查询片段作为概念词汇来描述资源片段结构;用上述的动画、音频、视频、图像的资源以及非结构化文本资源、结构化文本资源作为概念词汇来描述资源片段的显示效果;
(2)确定可用于资源片段标注的其他本体
对于已有的多媒体、电子学习领域的技术标准和本体,检索其中可用于描述学习资源片段媒体信息特征和学习资源内容特征的本体,用其中的概念词汇对该学习资源片段媒体信息特征和学习资源内容特征进行描述;
(3)学习资源及学习资源片段的标注
用户根据目标内容选择标注类型,对于完整的学习资源,用步骤(2)中的用于描述学习资源片段媒体信息特征和学习资源内容特征的概念词汇来标注,同时支持用户自定义词汇标注;对于用户根据需求所确定的可重复使用的资源片段,使用步骤(1)中的描述资源片段的结构和显示效果的概念词汇对资源片段进行表述,并使用步骤(2)中用于描述学习资源片段媒体信息特征和学习资源内容特征的概念词汇来标注,同时支持用户自定义词汇标注;
(4)标注后的学习资源的发布
根据URI命名方式对步骤(3)中已标注的完整学习资源和资源片段进行命名,将步骤(3)的标注结果转化为资源描述框架三元组数据模型,在相互有关联的URI之间建立owl:sameAs形式的链接关系,完成已标注学习资源的发布,具体是:
(4.1)根据URI命名方式对步骤(3)中已标注的完整学习资源和资源片段进行命名;
(4.2)对于每一个已命名的学习资源或资源片段s,分别确定已标注词汇可作用于资源片段s上的属性pi及其对应取值oi,生成资源描述框架三元组描述集合{(s,pi,oi)};
(4.3)将对所有学习资源和资源片段所生成的资源描述框架三元组描述集合{(s,pi,oi)}中任意两个进行比较,计算其相关系数;
(4.4)设定相似性阈值,若资源对(si,sj)的相关系数大于等于相似性阈值,使用owl:sameAs建立两者之间的链接关系,若资源对(si,sj)的相关系数小于相似性阈值,则放弃建立链接关系。
在上述步骤(4.3)中任意两个资源进行比较,计算其相关系数,具体是:
(4.3.1)先建立资源描述框架数据集的“属性-值”模型,一个资源描述框架数据集中的资源通过一个特征集合rfs表示,rfs中的每一个特征都关联着一个取值集合,rfsk={f1,...,fn},对于每一个
(4.3.2)计算资源描述框架数据集中资源属性值的相似性sim_v,
(4.3.3)计算属性间的相似性sim_f,
>其中vs∈Vf1,vt∈Vf2,k=|Vf1|,h=|Vf2|;
(4.3.4)计算资源间的相似性为sim_s,即
>其中,fi∈rfs1,fj∈rfs2,n=|rfs1|,m=|rfs2|。
本发明的面向分布式学习环境的多片段学习资源标注方法是用于描述学习资源片段的资源片段本体,该本体中的概念用于描述可访问到的所有类型的学习资源的片段,将资源片段本体与领域本体相结合,使用本体词汇对学习资源进行语义标注,标注的过程中同时对完整的资源和有价值的资源片段使用HTTP URI进行标识,将所有已HTTP URI命名的资源以RDF的形式进行重新定义,实现学习资源之间的相互连接。与已有技术相比其主要具有以下优点:
1、由于本发明设计并定义了学习资源片段描述本体,根据多媒体资源的结构对其片段进行定义,支持对学习者感兴趣的资源片段进行标注并进行重新呈现,克服了现有技术中只能粗糙的对完整的学习资源进行标注的不足,使得本发明具有语义标注精确、便于学习者交流和讨论的优点。
2、由于本发明采用资源描述框架的三元组模式对标注结果进行表示,使用关联数据的形式对资源及资源片段进行命名,同时支持HTTP协议对被标注资源的访问,因此可以很好的支持分布式环境下学习资源的共享,也使得本发明在实现语义标注的同时还具有对学习资源进行整合的能力。
3、由于本发明采用同时使用本体词汇和用户自定义标签对资源进行标注的策略,在保证标注信息语义清楚、规范的同时不对用户的标注行为做强制性的约束,使本发明具有应用简单的优点。
4、本发明提出资源描述框架三元组数据特征模型以及基于该模型的资源间相关性判断算法可以推广至任意领域中资源间相关性的计算。
附图说明
图1为实施例1的标注方法流程图;
图2为资源片段本体的核心概念图;
图3为图像片段的语义标注示意图;
图4为视频片段的语义标注示意图;
图5为对PPT学习资源片段和超文本学习资源片段进行标注并进行关联示意图;
图6为两个学习资源的相关性说明;
图7为不同平台的学习资源整合原理图;
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明,但是本发明不仅限于下述的实施情形。
参照图1,本实施例的面向分布式学习环境的多片段学习资源标注方法由以下步骤实现:
(1)设计并定义资源片段本体
将学习资源片段作为标记的最小单位,根据承载学习资源的媒体类型,将学习资源媒体分为两类:连续性媒体和离散型媒体。连续性媒体主要包括基于时间的媒体,如动画、音频和视频;离散型媒体主要包括图像、文本(结构化和非结构化)等。基于该分类定义描述学习资源片段的概念,分别为空间片段、时间片段、结构化文本片段、非结构化文本片段,参照附图2,其中具有关联的概念之间是通过“是一种”关系联系,图2中带有空心箭头的线段表示这种联系,例如时间区间片段“是一种”特殊的时间片段,路径片段“是一种”特殊的结构化片段。
根据常见的学习资源类型,定义可描述学习资源片段显示效果的概念词汇,资源片段的表示分为用于描述图像片段的ImageRepresentation,用于表述动画片段的AnimationRepresentation,用于表述音频片段的AudioRepresentation,用于描述视频片段的VideoRepresentation,用于表述结构化文本信息的StructuredTextRepresentation,用于表述非结构化文本信息的PlainTextRepresentation。
学习资源片段描述本体中用于描述资源片段结构特征的概念词汇,具体是:
整个多片段资源描述本体分为三个抽象概念:资源片段(ResourceFragment)、资源片段表示(FragmentRepresentation)和资源片段集合(FragmentSet),资源片段涉及到的主要概念包括:空间片段(SpatialFragment)主要对二维图像中的区域进行描述,使用包括颜色、位置、大小和形状等在内的底层视觉特征描述每个区域;时间片段(TemporalFragment)主要对连续型媒体片段进行描述,具体的又分为时间点片段(TimePointFragment),使用小时、分钟、秒描述具体的时刻,以及时间区间(IntervalFragment)片段,每一个时间区间包括一个起始时刻和一个终止时刻;结构化片段(StructuredFragment)主要对具有特定结构或模式的数据进行描述,具体的又分为结构化查询片段(SQLFragmentation)用于描述关系数据库中的查询结果片段,路径片段(XPathFragment)用于描述XML文件中的子结构,资源描述框架三元组查询片段(SPARQLFragment)用于资源描述框架(RDF)数据片段;非结构化片段(PlainTextFragment)主要对以纯文本方式呈现的内容进行描述。
因此,用上述的时间点片段、时间区间片段、空间片段、非结构化段落片段、结构化查询片段、路径片段、资源描述框架三元组查询片段作为概念词汇来描述资源片段结构;用上述的动画、音频、视频、图像的资源以及非结构化文本资源、结构化文本资源作为概念词汇来描述资源片段的显示效果。
(2)确定可用于资源片段标注的其他本体
对于已有的多媒体、电子学习领域的技术标准和本体,检索其中可用于描述学习资源片段媒体信息特征和学习资源内容特征的本体,用其中的概念词汇对该学习资源片段媒体信息特征和学习资源内容特征进行描述,实现资源描述的标准化和通用性。具体概念例如:作为多媒体内容描述接口的MPEG-7(Moving Picture Experts Group);用于描述多媒体对象的本体COMM(Core Ontology for Multimedia)、M3O(Multimedia metadata ontology)和Media Resource Ontology;用于描述图像的本体DIG35,用于描述形状和图像区域的本体SAPO(Shape Acquisition and Processing Ontology),用于描述视觉对象的本体VDO(Visual Descriptor Ontology)和VRA core 3(VisualResource Association);用于描述音频的本体Music Ontology,Kanzaki MusicVocabulary以及Music Recommendation Ontology;用于描述学习资源内容的IEEE LOM(Learning Object Meta-data)、SCORM(Sharable Content ObjectReference Model)、IMS-LD以及IMS Common Cartridge。
(3)学习资源及学习资源片段的标注
用户根据自己感兴趣的目标内容选择标注类型,对于完整的学习资源,则用步骤(2)中的用于描述学习资源片段媒体信息特征和学习资源内容特征的概念词汇来标注,同时支持用户自定义词汇标注;而对于用户根据需求所确定的可重复使用的资源片段,则用步骤(1)中的描述资源片段的结构和显示效果的概念词汇对资源片段进行表述,并使用步骤(2)中用于描述学习资源片段媒体信息特征和学习资源内容特征的概念词汇来标注,同时支持用户自定义词汇标注;用户在对完整的学习资源标注的基础上还可以进一步对资源片段进行更详细的标注。
参考附图3,对本发明提出的图像片段语义标注的说明。对于标题为“MVC.jpg”的图像,可以提取其中部分区域进行标注,该图像片段属于“空间片段”,可以用“右方50%的区域”来表示其在原始图像中的位置,可以对该片段添加主题“模型视图表示结构”,并将该图像片段重新表示为“MVCfragment.jpg”。
参考附图4,对本发明提出的视频片段语义标注的说明。对于URI为“http://example.com/btree.mp4”的讲述“二叉树”结构的视频,可以提取其中的部分片段,该片段属于“时间片段”,可以用“时间段”结构对其进行描述,该片段的时间段开始时间为“40分25秒”,结束时间为“52分15秒”,该视频片段的主题为“平衡二叉树”,URI名称为“http://example.com/bbtree.mp4”,可以对该片段进行重新表示为视频文件“平衡二叉树.mp4”。
(4)标注后的学习资源的发布
对于添加语义标注的学习资源和资源片段,使用URI对其进行命名,并保证通过HTTP协议可以对其进行访问,使用资源描述框架数据模型对所标注的学习资源和资源片段进行重新描述,即将上述完整学习资源和资源片段的标注结果转化为资源描述框架三元组数据模型,在相互有关联的URI之间建立owl:sameAs形式的链接关系,即完成已标注学习资源的发布。具体是:
(4.1)根据URI命名方式对上述已标注的完整学习资源和资源片段进行命名,保证通过HTTP协议可对其进行访问;
(4.2)对于每一个已命名的学习资源或资源片段s,分别确定已标注词汇可作用于资源片段s上的属性pi及其对应取值oi,生成资源描述框架三元组描述集合{(s,pi,oi)};
(4.3)对于属于相同知识范畴的两个学习资源和学习资源片段的三元组分别描述为(si,pi,oi)和(sj,pj,oj),计算它们之间的相似性,具体的计算方法如下:
(4.3.1)首先建立RDF数据集的属性-值模型。一个RDF数据集中的资源可以通过一个特征集合rfs(RDF features set)表示,rfsi中的每一个特征都关联着一个取值集合。rfs可定义如下:
rfsk={f1,...,fn},对于每一个
(4.3.2)在此基础上,可定义资源属性及其取值的相似性。属性值的相似性sim_v可直观的定义为:
(4.3.3)在属性值相似性计算基础上,属性间的相似性计算可定义为:
>其中vs∈Vf1,vt∈Vf2,k=|Vf1|,h=|Vf2|。
(4.4.4)在属性相似性计算基础上,资源间的相似性计算可定义为:
>其中,fi∈rfs1,fj∈rfs2,n=|rfs1|,m=|rfs2|。
(4.4)设定相似性阈值,若资源对(si,sj)的相关系数小于相似性阈值,则放弃建立链接关系,若资源对(si,sj)的相关系数大于等于相似性阈值,使用owl:sameAs建立两者之间的链接关系。
假设有三个处于不同位置的学习资源标注平台,均提供了对学习资源片段进行语义标注的功能,并且可以把属于同一平台中的学习资源通过本发明的方法进行相互链接,如图5所示效果,对PPT学习资源片段和超文本学习资源片段的标注及建立关联的说明,具体如下:
URI名称为“http://example.com/sc1201”的PPT资源“软件工程导论第一章1201”是一个属于“资源描述框架三元组查询端口”的片段,该片段可以通过查询“SELECT?slide WHERE{?slide a#Slide?slide dc:subject‘1201URI’}”来获取,并且被添加主题“软件工程、软件开发模型”,该PPT资源片段的作者是“陕师大软工组”,语言为“中文”,发行者为“陕西师大计算机学院”。URI名称为“http://linkedlearningresource.com/edition/1.0”是一个HTML超文本资源,其中的路径片段“软件工程导论章节”是一个结构化文本资源片段,可通过XPath路径“/HTML/BODY/P{59}”对其进行定位,该片段具有名称“http://example2.com/seintro”,同样属于超文本格式,并且具有主题“软件工程”,关键词“软件工程、系统开发”,其语言为“英文”,作者为“关联数据资源小组”。资源片段“http://example.com/sc1201”是对资源片段“http://example2.com/seintro”的更深入详细的解释说明,因此在这两个资源之间可以建立链接关系“解释”。
通过该关联使得主题或领域相近的学习资源片段之间可以相互访问。
在不同平台的学习资源之间,可以发现在属性上比较详细的学习资源,进一步计算其间的相关性系数,使用如图6所采用的方法,对于相关性大于所设定相似性阈值的两个资源,可以建立其owl:SameAs关联,因此可以将属于不同平台的资源关联起来,实现学习资源的整合。对不同学习平台学习资源整合的原理参见附图7。具体如下:
参见附图6,对两个学习资源间相关性计算的说明。对于类型为PDF文档的资源片段“频繁模式与关联规则挖掘”,其URI名称记为“http://example.com/fpmining.pdf”,对资源片段内容进行标注的结果为:该资源片段具有主题“频繁模式、关联规则”,所属领域为“数据管理、数据库应用技术、机器学习、大数据分析、数据挖掘、数据预处理、趋势分析”,资源发行者为“陕西师大计算机学院”。该内容标注结果的RDF形式描述如下:
<“http://example.com/fpmining.pdf”主题“频繁模式”>
<“http://example.com/fpmining.pdf”主题“关联规则”>
<“http://example.com/fpmining.pdf”领域“数据管理”>
<“http://example.com/fpmining.pdf”领域“数据库应用技术”>
<“http://example.com/fpmining.pdf”领域“机器学习”>
<“http://example.com/fpmining.pdf”领域“大数据分析”>
<“http://example.com/fpmining.pdf”领域“数据挖掘”>
<“http://example.com/fpmining.pdf”领域“数据预处理”>
<“http://example.com/fpmining.pdf”领域“趋势预测”>
<“http://example.com/fpmining.pdf”发行者“陕西师大计算机学院”>
<“http://example.com/fpmining.pdf”类型“PDF”>
对于类型为“Word文档”的资源片段“关联数据挖掘”,属于非结构化文本片段,其URI名称为“http://example2.com/ar.doc”,对资源片段内容进行标注的结果为:该资源片段具有主题“关联规则”,所属领域为“机器学习、大数据分析、数据挖掘”,资源发行者为“数据挖掘小组、陕西师大计算机学院”。该内容标注结果的RDF形式描述如下:
<“http://example2.com/ar.doc”主题“关联规则”>
<“http://example2.com/ar.doc”领域“机器学习”>
<“http://example2.com/ar.doc”领域“大数据分析”>
<“http://example2.com/ar.doc”领域“数据挖掘”>
<“http://example2.com/ar.doc”类型“Word”>
<“http://example2.com/ar.doc”发行者“数据挖掘小组”>
<“http://example2.com/ar.doc”发行者“陕西师大计算机学院”>
根据资源片段“http://example.com/fpmining.pdf”和“http://example2.com/ar.doc”的RDF描述形式,分别将其转化为rfs形式的描述。资源“http://example.com/fpmining.pdf”的rfs形式为:
rfspdf={主题,领域,类型,发行者}
Vf主题={频繁模式,关联规则}
Vf领域={数据管理,数据库应用技术,机器学习,大数据分析,数据挖掘,数据预处理,趋势分析}
Vf类型={PDF}
Vf发行者={陕西师大计算机学院}
资源“http://example2.com/ar.doc”的rfs形式为:
RfsDOC={主题,领域,类型,发行者}
Vf主题={关联规则}
Vf领域={机器学习,大数据分析,数据挖掘}
Vf类型={Word文档}
Vf发行者={数据挖掘小组,陕西师大计算机学院}
根据rfs模型属性取值,可以计算“http://example.com/fpmining.pdf”和“http://example2.com/ar.doc”分别在每个属性上的相关性数值,具体值如下:
在每个属性相似性计算的基础上,这两个资源片段之间的相关性为:
>
假设相关性阈值为0.7,PDF片段和DOC片段间的相关性系数为0.75,因此可以认为这两个资源片段可以使用owl:sameAs进行关联。
机译: 分布式深度学习环境中数据压缩的装置和方法
机译: 用于传达面向时隙的信息的方法,例如对于ISDN通信网络,需要从中央通信单元到分布式通信单元的面向通信时隙的信息
机译: 面向分布式数据访问系统及其在每个域中访问分布式数据的方法