多信息融合中文关系抽取技术研究

代理获取

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

随着计算机在各个领域的广泛普及和Internet的迅猛发展，现实世界中的信息量呈指数级增长。如何从这些海量信息中抽取人们所需要的特定信息成为一个迫切需要解决的难点。关系抽取(Relation Extraction)是信息抽取领域一个重要的研究方向。关系抽取是指自动识别用自然语言表达的两个实体之间的关联，例如“比尔·盖茨是微软公司首席软件架构师”，在这个句子中，人物实体“比尔·盖茨”和组织机构实体“微软公司”之间存在雇佣关系，即比尔·盖茨是微软公司的雇员，担任首席软件架构师的职位。
　　该文描述了一种融合多信息的实体语义关系抽取方法，充分利用中文的各种特征和信息来提高关系抽取的性能。该方法主要结合特征向量和树核函数两种方法；特征向量表示了文本的语言信息，树核方法表示了文本的结构化信息。我们从有监督学习和无监督学习两个角度解决该问题，下面就这两个角度进行深入的分析：
　　 1)从有监督学习角度来分析，通过对语料的统计，非关系实例所占的比例达到了95％。为了防止出现太多的噪音，本文首先过滤非关系实例，结合实体对上下文和对应的词性、两个实体的类型和子类型以及两个实体的位置关系四个特征，利用SVM分类器对候选关系实例进行二元分类，在ACE2005语料上的实验结果显示，关系检测的F值达到了96.83%。然后，利用上一步得到的候选关系实例集合，结合语言和结构特征，利用多元分类的方法进行关系类别的识别。实验结果显示，在6大类上，F值达到了74.10%，取得了良好的效果。
　　 2)从无监督学习角度来分析，其不需要大量的标注语料，节省了大量的人力物力。这也是未来研究的发展趋势，能解决标注语料不足的问题。目前在中文关系抽取的研究主要集中在有监督学习及半监督领域，本文首次尝试采用无监督方法。结合语料本身和中文关系类别识别的特点，本文提出了XLS-means的聚类方法，结合语言和结构特征，对候选关系实例进行聚类，在6大类上，F值达到了35.08%，优于其他聚类算法。

著录项

作者
林如琦;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机应用技术
授予学位硕士
导师姓名陈锦秀;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
关系抽取; 语言信息; 结构信息; 多信息融合; 自动识别;

相似文献

中文文献
外文文献
专利

1. 多信息融合中文关系抽取技术研究 [J] . 林如琦 ,陈锦秀 ,杨肖方 . 厦门大学学报（自然科学版） . 2011,第003期
2. 融合多特征BERT模型的中文实体关系抽取 [J] . 谢腾 ,杨俊安 ,刘辉 . 计算机系统应用 . 2021,第005期
3. 融合多特征的基于远程监督的中文领域实体关系抽取 [J] . 王斌 ,郭剑毅 ,线岩团 . 模式识别与人工智能 . 2019,第002期
4. 多特征融合的中文实体关系抽取研究 [J] . 孙康康 . 无线互联科技 . 2019,第009期
5. 多特征融合与注意力机制的中文文本关系抽取 [J] . 陈振彬 ,叶颖雅 ,冯浩男 . 广东石油化工学院学报 . 2019,第004期
6. 碳酸盐岩油藏多信息融合裂缝预测及建模技术研究——以中东X油田Asmari层为例 [C] . 但玲玲 ,史长林 ,黎运秀 . 2018中国油气开发技术大会 . 2018
7. 基于复述与多信息融合的关系抽取方法研究 [A] . 宋睿 . 2019

多信息融合中文关系抽取技术研究

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅