首页> 中文学位 >互联网内容识别和中文文本信息过滤━━工商互多电子商务监管系统的实现
【6h】

互联网内容识别和中文文本信息过滤━━工商互多电子商务监管系统的实现

代理获取

目录

文摘

英文文摘

第一章前言

1.1课题提出的背景

1.2文本信息过滤的发展及原型

1.2.1文本信息过滤的发展过程

1.2.2文本过滤原型

1.3相关领域的发展

1.4课题涉及的主要研究内容

1.5论文的组织结构

第二章文本过滤的知识描述

2.1词典的组织和结构

2.1.1特征词典

2.1.2特征词典的构建

2.1.3基本词典

2.1.4禁用词典

2.2规则的描述

第三章互联网数据采集器

3.1引言

3.2互联网数据采集器

3.3数据采集器的实现

3.4数据采集器的一个实例

第四章中文文本特征的抽取

4.1文本特征抽取概述

4.2基于统计的中文文本特征抽取

4.3中文文本特征抽取的实现

第五章中文文本的结构分析

5.1文本的结构要素

5.1.1文本的标题

5.1.2文本的体

5.1.3文本的开头和结尾

5.2中文文本的结构分析与实现

5.2.1基于层次分析的文本结构分析

5.2.2层次分析方法抽取文本摘要的实现

第六章中文文本过滤引擎的设计

6.1引言

6.2基于统计方法的粗选过滤

6.2.1基于特征词汇的文本匹配

6.2.2段落匹配

6.3基于模式匹配机制的细选过滤

6.3.1规则文法

6.3.2规则解释器

6.4中文文本过滤引擎的实现

6.5提高中文文本过滤效率的几种方法

6.5.1相关反馈技术

6.5.2段落匹配技术

第七章工商互联网电子商务监管系统的实现

7.1电子商务监管系统的设计

7.2本系统的具体实现过程

7.2.1文本预处理

7.2.2基于统计方法的第一次粗选

7.2.3基于模式匹配的第二次细选

7.2.4相关信息反馈

7.2.5用户监管平台

第八章结束语

8.1对于中文文本过滤的认识

8.2本系统目前存在的问题及以后的改进工作

参考文献

致谢

展开▼

摘要

该文提出了基于统计方法的文本特征抽取方法.文本结构分析是文本理解的基础,文本给出了文本的物理结构和逻辑结构表示,提出了文本结构分析的层次分析方法.同时,系统实现了中文文本过滤引擎的设计思想:根据基于统计的方法得到相应的特征词汇集合,经过概念扩充,得到扩充的特征词汇集合.根据基于特征词汇的文本过滤方法获取初步的相关文本集.然后,将特征词汇作为匹配特征标志,进行模式匹配,获得最后的文本过滤结果.最后,收集一定数量的相关文本,利用相关的反馈机制不断是调整匹配模式,进而提高文本过滤的结果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号