首页> 中文学位 >中文信息处理中若干技术的研究与实现
【6h】

中文信息处理中若干技术的研究与实现

代理获取

目录

文摘

英文文摘

声明

第1章引言

1.1中文信息处理研究概况

1.2中文信息处理的难点

1.3目前中文信息处理技术发展的态势

1.4本文研究工作的主要内容及贡献

1.4.1主要内容

1.4.2贡献

1.5本文的组织结构

第2章中文信息处理基础

2.1中文信息处理基本概念

2.2字典组织构造

2.2.1概念概述

2.2.2词典的逻辑结构分析

2.2.3变量解释

2.3语料库介绍

2.3.1新华字典

2.3.2同义词词林扩展版

2.3.3人民日报标注语料

2.3.4句法树库

2.3.5中文文本分类语料库(复旦)

2.3.6单文档自动文摘语料库

2.3.6知网

2.4分词

2.4.1分词的研究概况

2.4.2分词方法的基本策略

2.4.3本文采用的算法及实现

2.5词性标注

2.5.1词性标注的研究概况

2.5.2词性标注的基本策略

2.5.3本文采用的算法及实现

2.6句法分析

2.6.1句法分析的研究概况

2.6.2句法分析的基本策略

2.6.3本文采用的算法及实现

2.7语义分析

2.7.1语义分析的研究概况

2.7.2语义分析模型

2.7.3潜在语义分析

2.8文本表示

2.8.1向量空间模型

2.8.2权值计算方法

2.8.3特征选择

2.8.4本文采用的算法及实现

2.9平滑算法

2.9.1平滑算法概述

2.9.2典型平滑算法分析

第3章中文信息分类

3.1国内外相关研究现状

3.2基本策略

3.2.1 Rocchio算法

3.2.2贝叶斯分类

3.2.3 k-近邻算法

3.2.4支持向量机

3.2.5决策树分类

3.2.6神经网络分类

3.3本文采用的算法及实现

3.3.1预处理

3.3.2算法描述

3.3.3性能分析

第4章中文信息聚类

4.1国内外相关研究现状

4.2基本策略

4.2.1基于层次的算法

4.2.2基于平面分割的算法

4.2.3基于密度的算法

4.2.4基于规则的模型的算法

4.2.5基于网格和子空间的算法

4.2.6遗传聚类算法

4.3本文采用的算法及实现

4.3.1基本思路

4.3.2算法描述

4.3.3性能分析

第5章自动文摘

5.1国内外相关研究现状

5.2基本策略

5.2.1基于统计的自动文摘

5.2.2基于理解的自动文摘

5.3本文采用的算法及实现

5.3.1基本思路

5.3.2算法描述

5.3.3性能分析

第6章中文信息检索

6.1国内外相关研究现状

6.2信息检索模型

6.2.1检索模型的定义

6.2.2布尔逻辑检索模型

6.2.3向量空间检索模型

6.2.4概率检索模型

6.3本文采用的算法及实现

6.3.1基本思想

6.3.2算法描述

6.3.3性能分析

第7章总结和展望

7.1本文取得的成果

7.2进一步的工作

参考文献

附录

致谢

展开▼

摘要

随着Intenet迅猛发展,各种资源不断增多。为了快速、高效的查找信息,信息处理以成为当前重要的研究领域。 针对信息处理涉及的内容,本文对中文信息处理中的若干关键技术进行了研究,主要研究内容和贡献如下: 实现了一种基于句法词典的句法分析方法。通过把文法规则映射为特征词,把句法分析转换为利用特征词生成句法判定树,使概率方法和规则方法有效的结合在一起。在封闭的测试中,该方法获得了89.40%的查全率,87.13%的查准率。 提出了一种利用样本距离,改进K-means聚类的方法,有效地避免了初始点的选择所带来的误差,以及噪声和孤立点的影响。 介绍了一种把多种语料库存入字典结构,以及使用此字典结构的方法;对特征词,使用多层hash存储,结合最大向前匹配,实现了快速分词算法,1G内存下,分词速度到2M/S;在实现基于隐马尔可夫模型的词性标注同时,结合平滑算法,标注正确率达到86%,排歧正确率达到82%;在实现基于KNN分类算法中,使用CHI统计方法选取属于该类的特征词,同时把该类的文档加载到其后,解决了信息冗余问题:通过利用句子的特性,计算句子在文本中的权重,简单实现了基于统计的机械自动文摘;通过采用向量空间模型,对输入语句进行同义词扩展,对文档采用倒排结构存储,实现了一个简单的信息检索。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号