首页> 中文学位 >基于海量互联网网页文本的中文概念知识库构建算法研究及应用
【6h】

基于海量互联网网页文本的中文概念知识库构建算法研究及应用

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1 引言

1.2 当前文本处理系统的局限性

1.3 智能化文本处理的解决途径——建立概念知识库

1.4 国内外主要词汇知识库分析

1.4.1 WordNet介绍

1.4.2 HowNet介绍

1.4.3 结论

1.5 基于海量文本的知识获取研究现状

1.5.1 组合词识别与挖掘

1.5.2 词汇意义挖掘

1.5.3 词汇语义关系挖掘

1.5.4 结论

1.6 研究内容及意义

1.6.1 研究内容

1.6.2 研究意义

1.6.3 本论文研究工作的类型

第二章 概念知识库体系结构研究

2.1 概念及其重要性

2.1.1 什么是概念

2.1.2 概念的重要性

2.2 概念知识库的基本结构

2.3 概念与词汇的关系

2.4 概念的表示方法

2.4.1 传统词典不适合于自然语言系统的使用

2.4.2 形式概念分析介绍

2.4.3 基于集合的概念表示方法

2.4.4 文本中概念更适合NLP使用

2.5 概念之间的语义关系

第三章 基于语义内容的网页正文提取

3.1 问题描述

3.2 原始网页文件中的各种信息

3.3 相关研究工作

3.4 算法思想

3.5 算法研究与算法流程

3.5.1 建立代表段落内容的词汇向量

3.5.2 词汇向量相似度的计算

3.5.3 确定一个段落是否属于正文

3.5.4 正文主题的词汇向量的演化

3.5.5 算法流程

3.6 算法分析

3.7 实验

3.7.1 参数WordPen的确定

3.7.2 进一步的实验和分析

3.7.3 算法处理实例

3.8 本章小结

第四章 基于词序列频率有向网的中文组合词挖掘

4.1 中文分词系统的工作原理

4.2 组合词

4.3 相关研究工作

4.4 本章研究工作概述

4.5 基于词序列频率有向网的组合词识别算法

4.5.1 算法思想

4.5.2 算法的性质

4.5.3 算法研究与算法流程

4.5.4 算法的分析

4.5.5 基于规则的组合词检验

4.5.6 算法实验

4.5.7 与其他算法的比较

4.6 文本中的组合词修正

4.6.1 组合词修正算法

4.6.2 组合词词性标注

4.6.3 实际文本的修正结果

4.7 组合词识别在概念知识库构建中的重要意义

4.8 本章小结

第五章 基于海量文本的文本中概念挖掘

5.1 概念、概念词和上下文三者之间的关系

5.2 文本中概念

5.2.1 文本中概念的定义

5.2.2 文本中概念的价值

5.3 相关工作

5.3.1 形式概念分析

5.3.2 人工智能中的概念学习

5.3.3 文本中词汇知识挖掘研究

5.4 本章的研究范畴和内容安排

5.5 从文本中挖掘文本中概念的算法讨论

5.5.1 概念词的选择

5.5.2 概念词上下文的筛选

5.5.3 文本集中概念词的上下文集合之间存在复杂关系

5.5.4 两个不同概念的上下文也会有交集

5.5.5 一个概念可能不只两个概念词

5.5.6 候选概念的可信度评价原则

5.5.7 一个多义概念词所属的多个概念的上下文不能有交集

5.5.8 为概念词的上下文设置重要性权值并不合理

5.6 数据模型

5.7 基于上下文组合树的概念提取算法

5.7.1 算法思想

5.7.2 上下文组合树

5.7.3 一棵上下文组合树上的概念提取

5.7.4 整个数据模型上的概念挖掘

5.7.5 算法分析

5.8 基于上下文关联性的概念挖掘算法

5.8.1 算法思路

5.8.2 算法讨论

5.8.3 算法流程

5.8.4 算法分析

5.9 实验和比较

5.9.1 本章两个算法的实验比较

5.9.2 与相似算法的比较

5.10 本章小结

第六章 基于海量文本的概念词(概念)动词语义关系挖掘

6.1 概念的语义关系概述

6.2 概念词语义关系与概念语义关系的联系与区别

6.3 相关研究

6.4 从文本中获取概念词之间的动词语义关系

6.4.1 算法的思想

6.4.2 算法研究与算法流程

6.4.3 算法分析

6.5 建立概念之间的语义关系

6.5.1 算法讨论

6.5.2 算法描述

6.6 实验与总结

6.6.1 实验

6.6.2 实验总结

6.7 本章小结

第七章 基于句子模式的概念词(概念)语法语义关系挖掘

7.1 概述

7.2 句子模式

7.2.1 句子模式概述

7.2.2 句式的形式化描述

7.3 基于句式的概念词语法语义关系提取的基本原理

7.4 相关工作

7.5 句子模式的挖掘算法

7.5.1 基于句子框架和重要词汇的句子模式描述方法

7.5.2 句子模式挖掘算法的设计

7.6 基于句式的概念词语法语义关系挖掘

7.6.1 算法设计

7.6.2 算法分析

7.7 建立概念之间的语法语义关系

7.8 实验与分析

7.8.1 句式描述方法通用性实验

7.8.2 基于句式的概念词语义关系挖掘实验

7.8.3 比较

7.9 本章小结

第八章 概念知识库构建系统

8.1 系统功能与体系结构介绍

8.2 各模块运行情况和所获知识介绍

8.2.1 互联网网页下载与文本库构建模块

8.2.2 组合词提取与文本库组合词修正模块

8.2.3 文本中概念挖掘模块

8.2.4 概念词(概念)动词语义关系挖掘模块

8.2.5 概念词(概念)语法语义关系挖掘模块

8.3 概念知识库

8.4 本章小结

结论和展望

参考文献

攻读博士学位期间取得的研究成果

致谢

展开▼

摘要

随着互联网和知识经济的发展,越来越多记载着人类各种知识的文本出现在计算机和互联网上,网络上的海量信息和知识为人们的科研、学习、工作和生活提供了丰富的资源,极大地推动了社会的进步。所以人们希望从计算机和互联网上获得更多的知识,从而推动了实现智能化的文本处理以快速的从互联网文本中获取知识的研究已成为计算机科学技术领域的新热点。
   在客观世界知识和语言文字的发展过程中,文字中也出现了越来越多的复杂词汇语义现象,例如新词和复合词现象,同义词现象和多义词现象。为了实现智能化的文本处理,首先必须建立一个适合自然语言(自由文本)处理系统使用的词汇知识库。
   自然语言处理系统要求使用格式化的知识,并且只能根据文本中局部的上下文信息进行词汇语义理解和文本分析。当前各种由知识工程师或语言学专家手工编撰的传统词典(包括著名的WordNet和HowNet)并不十分适合于自然语言系统的使用,一方面是因为它们没有完全实现知识结构的格式化,另一方面是因为它们没有包含最新的词汇知识。而其他各种从文本中获取词汇知识的研究中,有的只关注于特殊类型词汇的识别,有的只关注于研究同义词的问题,有的只关注于词汇语义关系的研究。由于没有全面的考虑文本中存在的各种词汇语义的复杂现象,不但获得的词汇知识各有缺陷,并且也无法组成一个适合自然语言处理系统使用的系统化的词汇知识库。
   针对自然语言处理系统对格式化词汇知识的需求,以及当前各种词汇知识库和词汇知识获取研究存在的缺陷,本文首先研究了适合自然语言处理系统使用的概念知识库的体系结构,然后以构建概念知识库为目标研究了各种词汇知识获取算法。为了能从最新的、庞大的文本库上获取知识,进行了基于语义内容的网页正文自动化提取研究。为了解决中文分词系统无法正确识别文本中的组合词(包含了新词和复合词)的问题,进行了文本中组合词识别和修正的研究。提出了一种格式化的概念表示方法(文本中概念),分析了以这种方式表示的概念知识能同时解决词汇的同义性和多义性问题,并研究了从文本中提取这种概念的理论和算法。分析了语义关系的两种表示方法(动词语义关系和语法语义关系)及其各自的特点,并分别研究了基于海量文本的动词语义关系挖掘算法和基于句子模式的语法语义关系挖掘算法。本文最后开发了一个原型系统,通过应用这些算法,建立一个包含了很多新知识的概念知识库,证明了本文各项研究工作的的意义和正确性。
   本文的创新性主要有以下几点:
   1、从人类的知识结构出发,研究了人类知识中的概念与语言文字中的词汇的复杂关系,然后结合自然语言处理系统的工作模式,提出了一种更加适合自然语言处理系统使用的概念知识库,最后构建了这个概念知识库。与当前的各种词汇知识库比较,这个概念知识库的知识直接来源于文本,包含了更适合自然语言处理系统使用的各种词汇知识。
   2、通过研究人类的认知模式,提出了基于语义内容的网页正文提取算法。与当前各种基于网页标记格式的提取算法相比,这种算法完全不受网页格式的影响,能有效的处理各种不同格式的网页,是一种真正的智能网页正文提取算法。
   3、基于自动分词系统的工作模式和局限性,提出了“组合词”的概念,并提出了基于文本中组合词分布规律的识别算法。与当前各种词汇提取算法和词分割算法相比,组合词的概念和组合词识别算法的优点在于,即是对分词系统缺陷的完整解决方案,又无需借助专业的语言学知识,对各种类型的词汇和文本都有很好的移植性。
   4、提出了一种格式化的概念表示方法,即文本中概念,并提出了从海量文本中提取文本中概念的算法。与当前各种算法所获取的词汇含义知识比较,文本中概念所表示的知识更加接近人类知识体系中的概念,并且能同时解决词的多义性和同义性的问题,更加适合自然语言处理系统的使用。
   5、提出了概念之间动词语义关系的概念和基于海量文本的动词语义关系挖掘算法。当前的语义关系挖掘研究都集中于对概念之间的语法类型语义关系(例如,部分整体关系)的挖掘,与概念之间的语法类型语义关系相比,动词语义关系更加接近人类知识体系中的概念关系,更加适合于应用在人机对话系统中。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号