首页> 中文学位 >基于网络文本的多词表达抽取方法研究
【6h】

基于网络文本的多词表达抽取方法研究

代理获取

目录

声明

致谢

摘要

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.3 网络文本中多词表达抽取的特点和难点

1.3.1 多词表达的特点分析

1.3.2 多词表达抽取的难点

1.4 本文的组织结构

2 相关理论与技术介绍

2.1 基于统计的序列标注方法

2.1.1 条件随机场模型

2.1.2 感知机算法模型

2.1.3 最大熵模型

2.2 多词表达抽取的相关技术

2.2.1 基于统计模型的方法

2.2.2 基于有监督学习的方法

2.2.3 基于语言学知识的方法

2.3 本章小结

3 基于规则与统计相融合的多词表达抽取方法

3.1 基于规则与统计相融合的多词表达抽取框架

3.2 网络文本中多词表达构词模式

3.3 统计模型改进算法

3.3.1 互信息

3.3.2 C-value/NC-value算法

3.3.3 互信息融合NC值的改进算法

3.4 基于规则与统计相融合的多词表达抽取算法

3.5 基于左右词信息的停用词表建立

3.6 实验结果及分析

3.6.1 网络文本语料预处理

3.6.2 多词表达抽取实验结果评测标准

3.6.3 基于规则与统计相融合多词表达抽取的实验结果及分析

3.7 本章小结

4 基于双层策略的多词表达抽取方法

4.2 第一层次—多词表达候选识别

4.2.1 左右熵

4.2.2 增强互信息

4.3 第二层次—多词表达候选过滤

4.3.1 支持向量机分类器简介

4.3.2 Word2vec词向量应用

4.3.3 基于上下文与词向量特征的多词表达候选过滤

4.4 实验结果及分析

4.4.1 第一层次实验结果分析

4.4.2 第二层次实验结果分析

4.5 多词表达抽取对分词结果的影响

4.5.1 分词实验结果评测标准

4.5.2 分词实验结果对比

4.6 本章小结

5 总结与展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

多词表达(Multiword Expression,MWE)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现且往往缺乏标注信息,给分词任务和后续文本理解带来了巨大挑战。与此同时,网络文本的多词表达抽取对于社交网络的热点追踪和信息检索等任务都有着至关重要的作用。目前,多词表达的抽取方法研究已经有了一定的成果,但仍然存在很大的改进空间,主要的问题有:目前面向网络文本的多词表达抽取研究还很少;采用纯规则或纯统计的方法来抽取多词表达的效果往往不好;多词表达结构中词元关系的计算往往需要依赖人工制定的规则和模板,不适用于抽取包罗万象的网络文本中的多词表达。因此,本文面向网络文本的多词表达抽取研究,探讨如何结合规则和统计方法来抽取多词表达,以及如何减少人工制定规则的依赖,实现多词表达的自动抽取。
  本文对网络文本中汉语多词表达的结构特点和语言学特点进行了详尽的分析和归纳,在此基础上,设计了基于规则与统计相融合的多词表达抽取方法,且根据多词表达构成词的词性组合规律制定了正则表达式模板,并改进NC-value统计模型,将其与互信息(Mutual Information,MI)相结合(即MI/NC)来抽取多词表达。经过实验测试,在1万条微博语料上,基于规则与统计相融合的方法抽取多词表达的F值达到85.85%,相比较于基线系统,性能有了很大的提升。
  进一步,为了减少对人工规则的依赖及提升多词表达抽取的准确率,本文提出了一种基于双层策略的多词表达抽取方法。第一层次,我们利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,我们在第一层次获得的多词表达候选列表的基础上,利用支持向量机(Support Vector Machine,SVM)分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验验证,基于双层策略方法抽取多词表达的F值达到89.58%,相比较于基线系统和基于规则与统计相融合的抽取方法,性能有了进一步的提高。
  综上所述,本文面向网络文本,在融合基于规则和基于统计的多词表达抽取方面,在改进多词表达结构中词关系计算算法方面,在引入词向量来过滤多词表达候选列表方面,进行了一系列创新性的工作,实验结果表明,本文所提出的基于规则与统计相融合和基于双层策略方法都能实现网络文本中多词表达的有效抽取。此外,我们将多词表达抽取与分词任务相结合,实验结果表明,引入多词表达抽取结果后的分词效果也得到了有效的改善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号