首页> 中文学位 >基于文本多特征值的功率谱分析方法的研究
【6h】

基于文本多特征值的功率谱分析方法的研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 背景、目的和意义

1.2 国内外研究现状

1.2.1 文本计算及文本相似性研究现状

1.2.2 功率谱的研究历史与现状

1.3 论文的主要工作、创新点

1.3.1 本文的主要工作

1.3.2 本文的创新点

1.4 论文的组织结构

第二章 文本相似性判别

2.1 文本预处理

2.1.1 去停用词

2.1.2 分词

2.2 多特征值提取

2.2.1 TF特征

2.2.2 DF特征

2.2.3 TF-IDF特征

2.2.4 信息熵

2.2.5 词频分布熵

2.2.6 文本分布熵

2.2.7 Pearson相关函数

2.2.8 词条分布权值

2.3 常见的文本相似性计算方法

第三章 基于脉冲信号函数的文本建模

3.1 二维特征集合的建立

3.2 设置文本脉冲信号函数

3.3 脉冲信号函数的应用

3.4 本章小结

第四章 基于文本模型的功率谱估计

4.1 经典功率谱估计法及实验分析

4.1.1 相关法与其功率谱图

4.1.2 周期图法与其功率谱图

4.1.3 周期图法的改进与其功率谱图

4.2 现代功率谱估计及实验分析

4.2.1 L-D算法与其功率谱图

4.2.2 Burg算法及功率谱图

4.3 AR模型的阶数选择

4.4 本章小结

第五章 基于功率谱估计的文本相似性计算

5.1 基于功率谱估计方法的文本相似性判别系统的组成模块

5.2 基于功率谱估计的文本相似性的研究

5.2.1 功率谱匹配依据

5.2.2 功率谱匹配算法描述

5.2.3 功率谱匹配算法的伪代码

5.2.4 实验结果与分析

5.3 长短文本匹配算法

5.3.1 长短文本匹配算法分析

5.3.2 文本匹配情况

5.3.3 长短文本匹配算法伪代码

5.3.4 实验结果及分析

5.4 本章小结

第六章 性能测试与分析

6.1 系统开发运行环境

6.2 实验数据及数据存储

6.3 基于功率谱匹配算法的实验分析

6.4 与传统方法的性能对比

6.5 本章小结

第七章 总结与展望

7.1 全文总结

7.2 论文不足之处

7.3 进一步研究设想

7.4 心得体会

参考文献

致谢

附录

展开▼

摘要

随着网络技术的快速发展和计算机模拟人类思维的能力不断提高,各种信息大量涌现,人工管理信息已经远远不能满足日益增长的社会需求,如何使用计算机在看似凌乱的数据中快速找出潜在的、有价值的信息才是当前的需要。近年来,文本相似性计算已经有了长足的发展,被广泛应用到文献检索、信息过滤、机器翻译、信息归类等领域,但大多数研究是针对某种具体的应用而言的,一种算法在另一领域的适用性较差,新应用需要研究新的算法来解决。
  另外,系统化的表示文本与计算方法的研究还存在着诸多缺陷,阻碍了文本智能化的发展。文本计算是文本智能化处理的主要理论之一,文本的数学表示及其计算则是文本智能化处理的基本方法。本文针对文本多特征值的提取,构建二维特征集合,系统化地表示文本特征,完成文本多特征值的存储及对文本规范化处理。通过研究面向文本计算的二维特征集合的构成、运算方法及其性质,形成一套面向文本的基于二维特征集合的计算体系,为文本中词条多特征属性的应用奠定了基础。
  本文研究了各种经典的特征提取算法和文本相似性计算模型,通过多角度地提取文本特征创建经济领域的主题词表,并以该主题词表为核心研究文本的能量分布。此外,本文受人类想象运动会引起脑电波的变化思想的启发,认为人们在写作过程中头脑的脉冲信号与写作过程存在着密切的联系,本文通过模拟作者写作过程中脑电信号的变化特点并结合词语的某些特征值对文本的贡献构造词语脉冲信号函数,并通过叠加词语脉冲信号函数的方式,形成文本脉冲信号函数。为解决文本高维度的问题,本文将该模型转化到频域,得到每篇文本的功率谱图,由此提出基于功率谱估计方法的文本相似性计算模型,该模型一方面利用功率谱图表示文本的语义和语法结构,获取更多、更深的文本语义信息特征,增强文本表示的准确性,减少文本语义信息量的损失;另一方面通过功率谱分析研究文本的书写趋势和内在规律,探索文本分析的新方法,增强文本计算的精确性和全面性。
  最后,本文以建立功率谱库的形式,完成待测文本的相似性判别。由最终的实验结果可知,本文提出的功率谱匹配算法不仅可以摆脱语言和文字之间的歧义及语序的变化导致的错误分析结果,还能完成长文本之间、短文本之间、长文本与短文本的相似性计算问题,提高了文本处理的应用广度和应用效果,同时也验证了通过功率谱估计的方式表示文本是可行的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号