首页> 中文学位 >中文文本数据库关键技术及其在Web中的应用
【6h】

中文文本数据库关键技术及其在Web中的应用

代理获取

目录

文摘

英文文摘

第一章引言

1.1文本数据库的概念

1.2文本数据库研究现状

1.2.1文本数据库模型

1.2.2文本检索技术

1.2.3中文文本数据库研究现状

1.2.4文本数据库产品

1.3本文工作

1.3.1研究目标及意义

1.3.2全文的贡献

1.3.3全文结构安排

第二章中文文本信息处理基础

2.1中文文本信息切词的理论与方法

2.1.1中文文本信息切词中的问题

2.1.2中文文本信息切词的主要方法

2.1.3本文方法

2.2中文信息自动句法分析

2.2.1句法标记

2.2.2中文句法分析

2.3中文文本信息全文索引

2.3.1全文索引介绍

2.3.2 ∑2邻接矩阵全文索引模型

2.4中文文本分类

2.4.1文本的表示

2.4.2特征项的抽取

2.4.3训练方法与分类算法

2.4.4阈值的确定

2.5 小结

第三章中文文本的信息抽取

3.1论基础

3.1.1自然语言理论基础

3.1.2匹配模式的相关定义

3.2基于汉语结构规则的语义匹配模板

3.2.1语义匹配模板的表示形式

3.2.2匹配模型检索度量

3.3匹配模型规则的抽取

3.3.1基于种子的初始匹配模板抽取

3.3.2基于遗传算法的匹配模板抽取及优化

3.3.3匹配模式分类排序

3.4一种文本数据库信息的新型检索算法

3.4.1检索算法

3.4.2测试结果

3.4 小结

第四章文本数据库的模型

4.1基于逻辑结构与内容的文本数据库模型

4.2文本数据库创建

4.2.1创建算法

4.2.2实现

4.3文本数据库中SQL语言研究

4.3.1基于文本逻辑结构的SQL查询机制

4.3.2基于匹配模板的SQL查询机制

4.4小结

第五章全文检索的并发控制

5.1文索引增、删、改方法及乐观的共享锁机制

5.1.1全文索引增、删、改方法

5.1.2并发操作中的锁机制

5.2全文索引的并发操作中的冲突及保护机制

5.2.1基于CSCW的全文索引可能产生的冲突

5.2.2避免冲突的保护机制

5.3操作转换算法

5.3.1冲突搜寻算法

5.3.2操作转换算法

5.4小结

第六章WEB中文本数据库选择及检索

6.1 WEB资源特征模型及算法

6.1.1基于文本分类的Web资源特征模型

6.1.2数据库选择算法

6.2 WEB资源采样特征及元搜索引擎模型

6.2.1查询采样定义及方法

6.2.2 Web资源的采样流程

6.2.3元搜索引擎模型

6.3度量评价指标

6.3.1采样评价指标

6.4互操作机制

6.5实现及性能评价

6.5.1采样评价

6.5.2词项特征特点

6.5.3查询结果评价

6.6小结

第七章总结与展望

7.1本文取得的成果

7.2进一步的工作

参考文献

参与的科研项目与发表的论文

致谢

声明

展开▼

摘要

该文提出了一个树型的基于∑<'2>邻接矩阵全文索引、中文文本逻辑结构与内容的文本对象数据库模型及其创建算法,建立了相应的SQL查询机制.针对中文文本文件的句子中常包含有一些有价值的结构化数据,该文提出了基于种子的方法进行中文文本信息的匹配模板抽取模型,并采用基于遗传算法机制进行优化.在此基础上提出了一种面向文本数据的查询机制.同时将信息抽取建立在全文检索的基础上,提高了匹配模板抽取的效率及对文本检索的效率,为海量文本数据库的实现在查询效率上提供了保证.该文针对全文索引所存在的这些缺陷,提出了一种基于操作转换以及乐观锁的实时全文检索并发控制机制.针对并发操作中可能存在的因果冲突、意向冲突、多版本冲突,通过操作转换、加锁等方式为全文索引的并发控制机制提供了解决方案.另外该文利用查询采样、网页分类的技术,自动创建类似Yahoo!的分类层次的资源特征查询机制,建立了一个树型的Web资源特征检索系统,避免了人力的大量浪费.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号