首页> 中文学位 >一个中文语义语料库的研究与建设
【6h】

一个中文语义语料库的研究与建设

代理获取

目录

文摘

英文文摘

论文说明:表格及插图

苏州大学学位论文独创性声明及使用授权声明

第一章绪论

第二章相关技术背景

第三章L2bank语料库总体设计方案

第四章基于知网语义相关度计算及应用

第五章语料库的建设

第六章总结与展望

参考文献

发表文章目录

致谢

附录

展开▼

摘要

经过几十年的蓬勃发展之后,自然语言处理面临着语义知识资源匮乏和处理技术欠缺的瓶颈,语义资源建设对自然语言处理的未来具有重要意义。本文选择中文语义语料库建设作为研究课题,选择人民日报语料为标注对象,从知网进行知识获取,研究了以知网标记集进行汉语语料库语义标注的方法,并进一步开发了语义标注的汉语语料库L2bank。 以语义语料库的建设为目标,以语义标注技术为手段,本文做了以下几个方面的工作: 首先,通过对国内外语义语料库建设的发展与现状、语料库建设的语义知识源的调研,确定了知网作为语义知识源,人民日报作为基础生语料库,Oracle9iFS作为构建平台的总体设计,在此基础上确定了L2bank语义语料库的总体设计和基本构架,为后续工作奠定了基础。 然后,探讨了语义标注的基本技术,提出了基于知网的语义相关度计算模型。该模型所使用的语义关系挖掘思想可以解决语义语料库建设的难点:多义词的消歧问题,成为本文特色之一。实验结果表明该方法消歧正确率可达80%,能够大幅度减少语料库建设的人工工作。 最后,详细阐述了L2bank语料库的构建过程,继而根据加工处理后的语料特点提供了42种访问控制接口,并通过大规模调查对语料库做了评测和分析。 语义语料库的建设对自然语言处理技术的进步有重要意义,本文初步完成了一个语料库建设的整体架构,并提出了自动标注的基本算法。但在提高自动标注精度和更多语义知识挖掘等方面还要进一步的研究。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号