首页> 中文学位 >中文复述模板及搭配抽取方法研究
【6h】

中文复述模板及搭配抽取方法研究

代理获取

目录

声明

摘要

1.绪论

1.1 课题背景

1.2 课题研究意义

1.3 国内外相关研究

1.4 本文的主要研究内容

1.5 本文内容安排

2.相关技术研究

2.1 复述资源抽取

2.1.1 复述模板的抽取

2.1.2 复述搭配的抽取

2.2 复述评测

2.2.1 对复述模扳抽取的评测

2.2.2 对复述搭配抽取的评测

2.3 本章小结

3.字幕语料的中文复述模板抽取

3.1 复述模板的定义

3.2 系统框架

3.3 字幕语料的中文复述模板抽取方法

3.3.1 复述句抽取

3.3.2 复述模板抽取

3.4 实验与分析

3.4.1 复述句抽取参数估计

3.4.2 复述模板抽取参数估计

3.4.3 实验结果对比

3.5 本章小结

4 基于概念扩展的中文复述搭配抽取

4.1 问题引出

4.2 系统框架

4.3 基于概念扩展的中文复述搭配抽取方法

4.3.1 搭配抽取

4.3.2 候选复述搭配抽取

4.3.3 复述搭配过滤

4.4 实验与分析

4.4.1 参数估计

4.4.2 实验结果对比

4.4.3 特征分析与错误分析

4.4.4 基于实例句子的评测

4.5 本章小结

5 总结和未来工作展望

5.1 本文总结

5.2 未来工作展望

参考文献

在校期间发表的论文、科研成果

致谢

展开▼

摘要

复述是用不同方式表达同样的语义,它不仅是人类自然语言中的一种普遍现象,同时对自然语言处理领域的许多研究都具有重要的意义。近年来,复述技术受到了越来越多的研究者的关注。
  本文主要的研究对象是中文复述模板及搭配资源的抽取。抽取出来的这些复述资源不仅可以直接应用于复述生成中,也可以用于信息检索、机器翻译、自动问答等自然语言处理相关研究中。
  本文首先提出了一种字幕语料的复述模板抽取方法。该方法基于这样一个事实:对于同一种外文的不同翻译是天然的复述资源。本文首先利用对同一部外文电影的不同翻译小组的翻译字幕匹配候选的复述句对,并利用句长、长度比、词重叠率、BLEU(Bilingual Evaluation Understudy)四条复述规则对这些候选的复述句对进行过滤。在这些过滤得到的复述句的基础上,该方法依据“子树”和“部分子树”抽取模板。为了对抽取得到的模板进行匹配,该方法引入了HowNet进行词语语义相似度的计算,并利用模板中的词语的相似度来衡量两个模板之间的语义相似度。相比已有的方法,本方法提高了复述模板抽取的准确率,并且可以抽取大量的复述模板。
  模板相比普通的短语含有带有变量的槽,因此拥有更多的灵活性,但是其针对的只是句子局部的复述,不能解决远距离搭配的问题,因此,本文提出了一种基于概念扩展的中文复述搭配的抽取方法。该方法在对语料进行了语法分析之后,抽取出了具有<V,OBJ,N>形式的动宾搭配和具有<N,SUB,V>形式的主谓搭配。之后对抽取出的搭配进行过滤并利用了基于概念语义扩展的相关词群对搭配中词语进行扩展,进而生成了候选复述搭配集合。最后是复述搭配的判定,如下四个方面的特征被选作为复述搭配判定特征:1)词性特征、2)互信息特征、3)基于Hownet的语义相似度特征、4)基于上下文的向量相似度特征。相比已有的方法,本方法更为灵活,不限定复述搭配中的词语必须是同义词。实验结果表明,本方法选定的各种特征都有助于提高复述搭配抽取的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号