首页> 中文学位 >网络知识资源深层表示学习模型研究
【6h】

网络知识资源深层表示学习模型研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 引言

1.2 网络知识资源表示研究背景

1.3 文本表示与命名实体识别研究现状

1.4 本文研究内容与主要工作

1.5 本文的组织结构

第2章 网络知识资源的表示方法

2.1 常见文本表示方法

2.2 深度学习相关理论与发展

2.3 词向量相关理论与发展

2.4 Word2vec词向量

2.5 本章小结

第3章 信息提取与命名实体识别

3.1 信息提取技术

3.2 命名实体识别任务

3.3 领域命名实体识别

3.4 命名实体识别相关方法

3.5 条件随机场

3.6 本章小结

第4章 算法知识领域实体识别

4.1 领域命名实体识别流程

4.2 实验详细描述

4.3 实验结果与分析

4.4 本章小结

第5章 网络知识资源深层表示模型

5.1 模型框架

5.2 网络知识资源深层表示的定义

5.3 词向量的训练实验

5.4 网络知识资源深层表示的生成

5.5 网络知识资源深层表示的应用

5.6 本章小结

第6章 结束语

6.1 论文工作总结

6.2 未来研究工作展望

参考文献

附录

1汉语词性对照表[北大标准/中科院标准]

2 Crf++参数

致谢

展开▼

摘要

随着电子计算机技术和互联网的快速发展,网络知识资源呈爆炸式增长,网络资源内容多样,人们往往不能有效的获取、利用所需的网络知识资源。为了更好的利用网络知识资源,需要应用更加自动化、智能化的数据挖掘、信息提取方法。Web文档作为网络知识资源的一种载体,有着自然语言非结构化的特点,所以在运用聚类、分类等挖掘技术进行文本挖掘之前,需要将Web文档转化为机器学习算法可以理解的格式,即将文本数据转换成数值数据。本文主要对网络知识资源的表示及其相关的命名实体识别展开了深入的研究,首先对网络知识资源的表示和领域命名实体识别的基本概念和理论进行了归纳,分析了目前最为流行的向量空间模型与深度学习架构的词向量。在此基础上,提出了一种基于命名实体和词向量相结合的网络知识资源深层表示方法,并在算法知识领域内进行实验检验。论文主要在以下几个方面展开了研究和探索:
  首先,在调研了常见文本表示方法的基础上,指出了最流行的文本表示方法向量空间模型的局限性,进而利用命名实体和词向量对文本深层语法、语义挖掘的特点,提出了一种基于命名实体和词向量相结合的网络知识资源深层表示学习模型。
  其次,作为本文所提出模型框架的第一部分,针对算法知识领域,展开命名实体识别研究与实验。进行了Web文档爬取、预处理和标记语料等工作,完成了算法知识语料库的建设,并以条件随机场为主要算法,融合规则、词典和统计方法于一体构建模型,针对算法知识和网络解题报告的特点,选取相关特征,生成特征模板,利用开源工具CRF++在算法知识语料库上完成了训练过程,得到算法知识实体标注器。
  然后,作为本文所提出模型框架的第二部分,在算法知识领域语料上进行了词向量模型的训练,结合第一部分的命名实体结果,获得了网络知识资源的向量表示,并对这种向量表示进行了应用探索,包括网络解题报告的聚类和对网络解题报告的搜索,实验结果显示网络知识资源的这种深层表示方法在这些任务上有着不错的效果。
  最后,本文对以上两步的实验结果进行了讨论分析。确立了下一步改进的目标并对未来研究进行了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号