首页> 中文学位 >中文文档中学术活动事务信息的提取
【6h】

中文文档中学术活动事务信息的提取

代理获取

摘要

学术关系网络属于社会关系网络中的一种,而学术关系蕴含在丰富的学术活动事务信息中,随着我国科学技术评价的发展,如何从大量的学术活动事务信息中挖掘隐含的学术关系,建立学术关系网络成为了重要的研究课题。因此,有效的提取这些学术活动事务信息成为了建立学术关系网络的首要条件。然而学术活动事务信息一般都是以文本的形式存在的,所以本文提出了一种基于条件随机场的在中文文档中提取学术活动事务信息的方法。
  根据学术活动事务信息描述时具有的长距离依赖关系的特点,采用条件随机场(Conditional Random Fields,Crfs)的方法对其进行状态序列预测。由于我们采用的是crf++作为序列预测的算法工具,因此根据它对输入数据的要求,进行了训练数据和测试数据的准备工作,并且重点研究了在进行特征模板设计时的准则及方法,实现了学术活动事务信息的自动标注。同时,在文本预处理的过程中,采用了正则匹配的方法对分词不准确的词语进行了适当的处理。并且根据实验结果选择了最优模板的组合模板,使学术活动事务信息的标注取得了较为满意的结果。
  由于在一般的条件随机场的训练过程中都是采用手工收集训练数据,既费时耗力,又不能完全代表所有申请书的语句格式,所以本文采用了一种基于KNN的半监督学习方法将训练数据的收集过程进行了改进。该方法是根据较少的训练数据训练得到Crfs模型,用验证数据中的标注结果进行KNN分类器的训练,再用得到的分类规则在测试数据的标注结果中选择出有意义的未标注数据,补充到训练数据中,从而提高训练数据的有效性。实验证明,这样不仅提高了提取训练数据的效率,也提高了中文文档中学术活动事务信息的序列标注的准确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号