首页> 中文期刊> 《计算机工程与应用》 >基于文本化简的实体属性抽取方法

基于文本化简的实体属性抽取方法

     

摘要

研究了非结构化中文文本的实体属性抽取方法.引入文本化简作为抽取的预处理过程,解决传统信息抽取方法因为长难句的存在和自然语言表述多样性导致抽取效果不佳的问题.其中,文本化简被建模为一个序列到序列(seq2seq)的翻译过程,并用机器翻译领域的seq2seq-RNN模型进行实现.为了提升模型的化简效果,进行了不同层面的优化,包括使用预训练词向量、收集常用词汇表、引入词性标注和设计化简评分函数,这些优化使模型专注于化简过程中句法转换的学习.针对化简后的文本,设计基于简洁规则的方法进行信息元组和实体属性抽取.实验表明,对seq2seq-RNN的改进能提升文本化简的效果,而且在化简文本上抽取的信息数量比在原始文本上的多,信息也比较精确.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号