声明
致谢
摘要
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 网络文本中多词表达抽取的特点和难点
1.3.1 多词表达的特点分析
1.3.2 多词表达抽取的难点
1.4 本文的组织结构
2 相关理论与技术介绍
2.1 基于统计的序列标注方法
2.1.1 条件随机场模型
2.1.2 感知机算法模型
2.1.3 最大熵模型
2.2 多词表达抽取的相关技术
2.2.1 基于统计模型的方法
2.2.2 基于有监督学习的方法
2.2.3 基于语言学知识的方法
2.3 本章小结
3 基于规则与统计相融合的多词表达抽取方法
3.1 基于规则与统计相融合的多词表达抽取框架
3.2 网络文本中多词表达构词模式
3.3 统计模型改进算法
3.3.1 互信息
3.3.2 C-value/NC-value算法
3.3.3 互信息融合NC值的改进算法
3.4 基于规则与统计相融合的多词表达抽取算法
3.5 基于左右词信息的停用词表建立
3.6 实验结果及分析
3.6.1 网络文本语料预处理
3.6.2 多词表达抽取实验结果评测标准
3.6.3 基于规则与统计相融合多词表达抽取的实验结果及分析
3.7 本章小结
4 基于双层策略的多词表达抽取方法
4.2 第一层次—多词表达候选识别
4.2.1 左右熵
4.2.2 增强互信息
4.3 第二层次—多词表达候选过滤
4.3.1 支持向量机分类器简介
4.3.2 Word2vec词向量应用
4.3.3 基于上下文与词向量特征的多词表达候选过滤
4.4 实验结果及分析
4.4.1 第一层次实验结果分析
4.4.2 第二层次实验结果分析
4.5 多词表达抽取对分词结果的影响
4.5.1 分词实验结果评测标准
4.5.2 分词实验结果对比
4.6 本章小结
5 总结与展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集