基于免疫学原理的词表示及其应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自然语言处理研究主要应用机器学习方法，需要对词进行数学表示。词表示就是采用数学形式用词的属性对词进行的表示，在现有研究中，词一般表示成向量，向量的每一维对应词的属性。词表示的学习可以事先独立于具体任务和模型，一旦词表示学习完毕，学习到的词表示可以共享给其他研究人员并整合到现有的自然语言处理研究中。词表示对自然语言处理研究至关重要，已广泛应用于词相似度计算、关系相似度计算、词性标注、句法分析、命名实体识别、情感分析等自然语言处理任务。
　　词表示方法的理论根源是分布式语义假设，即出现在相同上下文的词倾向于表达相似的意义。所以现有词表示研究大多基于大规模语料，应用统计机器学习方法从词的上下文中学习词的向量表示。由于大多数统计机器学习方法缺乏持续学习能力，词表示只能是在给定规模的语料上一次性学习完成。所以现有词表示方法最大的问题就是缺乏持续学习能力，适应性较差，制约了词表示的进一步应用。本文借鉴人体适应性免疫学原理，构建多词主体自治学习模型从语料中学习词表示，试图解决这一问题。首先，本文系统地分析了语言和免疫系统的一致性，奠定本文研究的理论基础；然后，基于一致性，把词模拟成免疫细胞，引入克隆选择原理和免疫网络理论构建多词主体自治学习模型学习词表示；其次，在词相似度计算和关系相似度计算这两个任务上对本文提出的词表示方法进行了评价，这两个任务同时也是词表示的直接应用；最后把词表示应用到中文电子病历命名实体识别这一代表性的信息抽取任务中。主要研究内容包括以下五个方面：
　　1.系统地比较了语言和免疫系统的一致性，深入分析了语言和免疫系统的一致性对词表示研究的重要启发。语言和免疫系统的一致性是本课题的理论基础，一致性对比分析从三个方面展开，首先是学习特点的一致性，都具有持续学习特性；其次是作为语言的最小单位词和免疫系统的重要细胞B细胞存在深刻的一致性；最后是由词组成的语言网络和由B细胞组成的额免疫网络都具有复杂网络特性。这三方面的一致性对模型的设计提供了重要启发，指导词表示学习模型的构建。
　　2.提出基于免疫学原理的词表示方法和多词主体自治学习模型学习词的表示。在面向自治计算框架下采用主体建模方法，引入适应性免疫学原理（克隆选择原理和免疫网络理论），构建多词主体自治学习模型，该模型是一种在线学习模型。模型将词模拟成B细胞，将词的属性表示支配属性向量和依赖属性向量，并模拟成 B细胞受体，词之间的依存关系模拟成 B细胞之间的识别关系，识别方式是一个词的支配属性向量和另一个词的依赖属性向量进行匹配。在免疫学原理的作用下，模型调节词之间的结合强度，进而学习词的表示。
　　3.基于本文的词表示方法提出一种词相似度计算方法，并通过实验验证词表示方法和词相似度计算方法的有效性。本文的词表示方法把词表示成两个向量，一个代表词的支配属性向量，另一个代表依赖属性向量；本文扩展分布式语义假设为“具有相似的支配上下文和相似的依赖上下文的两个词是相似的”，因此词相似度值需要考虑两个词在支配属性向量上的相似度和依赖属性上的相似度。该方法在评价数据上取得了有效的评价结果。
　　4.基于本文的词表示方法提出一种词关系表示方法和词关系相似度计算方法，并通过实验验证词表示方法和词关系相似度计算方法的有效性。本文把词的结合关系泛化成语义关系，因而把一个词的支配属性向量和另一个词的依赖属性向量匹配后得到的向量作为关系的表示。词之间的关系存在方向性，因此本研究把词的关系表示成两个向量，一个代表词之间的正向关系，一个代表词之间的反向关系，分别对应于词之间的两种结合方式；基于这样的关系表示，本文认为只有在正向关系上和反向关系上同时相似的两个关系对才相似，因此关系相似度值需要考虑两个关系对在正向关系向量上的相似度和反向关系向量上的相似度。该方法在评价数据上取得了有效的评价结果。
　　5.基于本文的词表示方法，引入词表示到命名实体识别模型中，提升中文电子病历命名实体识别的性能。本文首先抽取电子病历中的词，然后从新闻语料上学习到的词表示集中取得词的向量表示，对病历中的词进行聚类，然后把词的聚类作为命名实体识别模型的特征，实现了领域间知识的迁移。对比实验表明本文的词表示能有效提升中文电子病历命名实体识别的性能。
　　综上所述，针对现有词表示方法缺乏持续学习能力这一不足，本文受语言和免疫系统的一致性启发，把词模拟成免疫细胞，基于适应性免疫学原理构建多词主体自治学习模型学习词的表示，并在词相似度计算、词关系相似度计算验证有效，而且成功应用于中文电子病历命名实体识别，取得了一些初步的研究成果。我们期待这些研究成果能够进一步推动自然语言处理领域持续学习研究的发展。

著录项

作者
杨锦锋;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机应用技术
授予学位博士
导师姓名关毅;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
免疫学原理; 词表示; 相似度计算; 命名实体识别模型;

相似文献

中文文献
外文文献
专利

1. 基于免疫原理词表示的词相似度计算 [J] . 杨锦锋 ,关毅 . 智能计算机与应用 . 2015,第003期
2. 基于免疫原理词表示的词相似度计算 [J] . 杨锦锋 ,关毅 . 智能计算机与应用 . 2015,第003期
3. 免疫学原理在入侵检测中的应用研究 [J] . 赵林惠 ,戴亚平 ,徐立新 . 计算机应用 . 2005,第008期
4. 基于多尺度词包表示的hLDA模型的茶园识别研究 [J] . 王小芹 ,张志梅 ,王常颖 . 青岛大学学报（自然科学版） . 2020,第003期
5. 基于语料库研究表示证据性日语情态词的翻译倾向——以(シ)ソウダ/ダッタ为代表 [J] . 王瀚莹 ,李光赫 . 现代语言学 . 2020,第003期
6. 日汉同形异义词的历史演变初探——以表示“鞋”义的词为例 [C] . 佐藤芳之 . 汉语词汇学第二届国际学术讨论会暨第六届全国研讨会 . 2006
7. 基于模糊理论和图表示原理的定性定量转换及其应用研究 [A] . 李鑫 . 2009

基于免疫学原理的词表示及其应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅