首页> 中文学位 >基于中文自然语言查询的多媒体数据库检索系统
【6h】

基于中文自然语言查询的多媒体数据库检索系统

代理获取

目录

文摘

英文文摘

独创声明、学位论文版权使用授权书

第一章绪论

第二章中文自然语言查询文本处理

第三章多媒体信息检索方法

第四章多媒体数据库系统的设计

结束语

注释

参考文献

攻读学位期间发表的学术论文

致谢

展开▼

摘要

教育信息化对教师提出了新的要求,教师作为学习资源的管理者,要在教学过程中确定所需的媒体资源,并提供查询线索。虽然因特网蕴含了大量的多媒体信息,但现有的搜索引擎多数采用基于关键词的方法,检索多媒体的准确度比较低。对于中小学教师而言,日常教学工作繁忙,对计算机网络技术应用的熟练程度参差不齐,在多媒体资源的查找方面更需要方便快捷的系统来加以辅助。 自然语言查询是指用户用自然语言在检索系统中对查询目标进行描述,系统从查询文本中自动提取查询条件、查询目标的关键特征,按一定的规则和算法在数据库中查找满足条件的记录作为查询结果反馈给用户。基于中文自然语言查询的多媒体数据库检索主要包括三个过程:从中文查询文本中提取查询目标媒体的关键特征;从数据库中查找满足查询条件并且与查询目标媒体具有较大相似度的记录;将查找到的记录数据作为检索结果按照相似度大小排序提供给用户。 论文研究了中文自然语言理解的特点和分词的一般方法,建立自用的分词系统,对查询文本进行分词和词性标注。从查询文本中去除虚词、设定的缺省词汇,即可得到对目标媒体的描述,称为主题内容。根据颜色词典从主题内容中提取颜色词,与用户输入的颜色词合并后作为主色调颜色词;根据主体词词典和主体属性词典,从主题内容中进一步提取主体词和主体属性词;如果主题内容中有“背景是”或“背景为”两种句式,可以提取背景词。计算相似度之前,主题内容要依据同义词词典进行扩展。 论文中采用相似度来衡量查询目标媒体和数据库媒体之间的差距。媒体的特征包括文件属性和内容特征,相似度计算主要是针对媒体的内容特征。论文中为图像、视频、动画、音频四种类型的媒体建立了内容特征表示模型,对于不同的内容特征使用不同的相似度计算方法。通过比较扩展后的主题内容与数据库中内容描述字段相同词的个数来计算主题内容相似度;主色调颜色词转换为HIS模式,与数据库中以数值方式标注的主色调字段进行色调相似度的计算;图像的主体与主体属性针对数据库中的主体字段计算相似度。所有的内容特征按照其所在层次确定重要性后,计算总相似度。按照总相似度的大小,将最相似的20个结果反馈给用户。 论文在上述工作的基础上设计了基于中文自然语言查询的多媒体数据库检索系统。用户注册登录后在界面上输入中文自然语言查询文本,进行文件格式、文件大小、媒体类型的选择。系统自动提取主题内容、内容特征、计算相似度,将符合条件的记录数据按照相似度的大小反馈给用户,反馈的内容还包括文件大小、相似度大小、媒体所在网址等相关信息。初步实验结果表明,该系统对结构比较简单的、嵌套较少的查询文本能比较准确的进行分词,提取主题内容、主题词和主体属性词。对数据库中内容特征标注准确、详实的记录,检索结果准确度较高,证明依据内容特征检索的方法是可行的。论文最后总结了本文的工作,并提出了下一步的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号