首页> 中文会议>第七届世界手语大会 >自然手语语料库建设研究

自然手语语料库建设研究

摘要

我国有2054万聋人,自然手语是他们日常交流广泛使用的语言形式,也是我国语言的重要组成部分.本文根据自然手语语料库的建设实践,提出了自然手语语料库建设的意义、过程、方法及需要注意的问题.语料库的检索共分两个部分:自然手语检索和手语者信息检索,这两个部分之间可以进行交叉检索。自然手语检索内容包括词汇、句子、段落。在词汇部分里,根据手语的5个基本语素:手的形状、手的动作、手的位置、手掌的方向、面部表情和其他体态,对词汇进一步进行分类检索;在句子部分里,按照句子的作用划分为陈述句、疑问句、祈使句和感叹句4种句型进行检索;在段落里,分为固定表达和自主表达两个部分进行检索。手语者信息检索部分,根据对自然手语差异性有很大影响的4个因素,分为手语者的地域、年龄、民族和文化程度4个部分进行检索。为了使语料库成为可视、可操作化的语料库形态,语料库的建设基础设施结构采用基于Google云计算技术的Map-Reduce框架,数据基于HDFS分布式存储管理,可以满足高效的进行数据密集型查询的需要。数据检索引擎采用Lucene技术,实现高效的交互式智能检索。Lucene为手语视频分片建立索引的过程是:通过视频流Parser对视频流分片的人工标注进行解析,提取出关键词等重要的信息,再将这些信息传送给LuceneAnalyzer,Lucene Analyzer把这些内容转化成单独的索引项并提取出相关信息,存储到能提高手语视频分片重组速度的索引文件中。应用软件机构采用基于Java的SSH框架进行设计,共用四层架构——表现层、控制层、业务逻辑层、数据持久层。其中,表现层中采用Htm15、Ajax和Jquery等动态技术;控制层使用Struts2框架,完成请求的转发及返回相应的响应;业务逻辑层使用Spnng框架;数据持久层采用Hibemate数据库技术与引擎进行耦合,实现高速分布式数据检索。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号