中文复述模板及搭配抽取方法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

复述是用不同方式表达同样的语义，它不仅是人类自然语言中的一种普遍现象，同时对自然语言处理领域的许多研究都具有重要的意义。近年来，复述技术受到了越来越多的研究者的关注。
　　本文主要的研究对象是中文复述模板及搭配资源的抽取。抽取出来的这些复述资源不仅可以直接应用于复述生成中，也可以用于信息检索、机器翻译、自动问答等自然语言处理相关研究中。
　　本文首先提出了一种字幕语料的复述模板抽取方法。该方法基于这样一个事实:对于同一种外文的不同翻译是天然的复述资源。本文首先利用对同一部外文电影的不同翻译小组的翻译字幕匹配候选的复述句对，并利用句长、长度比、词重叠率、BLEU(Bilingual Evaluation Understudy)四条复述规则对这些候选的复述句对进行过滤。在这些过滤得到的复述句的基础上，该方法依据“子树”和“部分子树”抽取模板。为了对抽取得到的模板进行匹配，该方法引入了HowNet进行词语语义相似度的计算，并利用模板中的词语的相似度来衡量两个模板之间的语义相似度。相比已有的方法，本方法提高了复述模板抽取的准确率，并且可以抽取大量的复述模板。
　　模板相比普通的短语含有带有变量的槽，因此拥有更多的灵活性，但是其针对的只是句子局部的复述，不能解决远距离搭配的问题，因此，本文提出了一种基于概念扩展的中文复述搭配的抽取方法。该方法在对语料进行了语法分析之后，抽取出了具有＜V，OBJ，N＞形式的动宾搭配和具有＜N，SUB，V＞形式的主谓搭配。之后对抽取出的搭配进行过滤并利用了基于概念语义扩展的相关词群对搭配中词语进行扩展，进而生成了候选复述搭配集合。最后是复述搭配的判定，如下四个方面的特征被选作为复述搭配判定特征:1）词性特征、2）互信息特征、3）基于Hownet的语义相似度特征、4）基于上下文的向量相似度特征。相比已有的方法，本方法更为灵活，不限定复述搭配中的词语必须是同义词。实验结果表明，本方法选定的各种特征都有助于提高复述搭配抽取的效果。

著录项

作者
王立;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用技术
授予学位硕士
导师姓名张茂元;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字处理软件;
关键词
中文复述模板; 搭配抽取方法; 词语相似度; 概念扩展;

相似文献

中文文献
外文文献
专利

1. 基于二元分类的复述搭配抽取 [J] . 赵世奇 ,赵琳 ,刘挺 . 软件学报 . 2010,第006期
2. 融合深度语义表示的开放域复述模板抽取 [J] . 金波 ,刘明童 ,张玉洁 . 情报工程 . 2021,第005期
3. 基于深度学习的中文短语复述抽取技术研究 [J] . 颜欣 ,张宇 ,潘晓彤 . 中文信息学报 . 2021,第002期
4. 基于模板的中文上下位关系抽取方法 [J] . 章岳 ,黄赛豪 ,陆凯华 . 计算机应用与软件 . 2022,第1期
5. 半监督中文事件抽取中的模板过滤和转换方法 [J] . 徐霞 ,李培峰 ,朱巧明 . 计算机科学 . 2015,第002期
6. 面向依存文法分析的搭配抽取方法研究 [C] . 车万翔 ,刘挺 ,秦兵 . 全国第六届计算语言学联合学术会议 . 2001
7. 中文复述实例与复述模板抽取技术研究 [A] . 李维刚 . 2008

中文复述模板及搭配抽取方法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅