公开/公告号CN104123336A
专利类型发明专利
公开/公告日2014-10-29
原文格式PDF
申请/专利权人 深圳北航新兴产业技术研究院;
申请/专利号CN201410215042.7
申请日2014-05-21
分类号G06F17/30(20060101);
代理机构44260 深圳市兴科达知识产权代理有限公司;
代理人王翀
地址 518000 广东省深圳市南山区科技园科技南十二路长虹科技大厦六楼602
入库时间 2023-12-17 01:39:31
法律状态公告日
法律状态信息
法律状态
2018-04-24
授权
授权
2016-02-24
专利申请权的转移 IPC(主分类):G06F17/30 登记生效日:20160201 变更前: 变更后: 申请日:20140521
专利申请权、专利权的转移
2014-12-24
实质审查的生效 IPC(主分类):G06F17/30 申请日:20140521
实质审查的生效
2014-10-29
公开
公开
技术领域
本发明涉及一种深度玻尔兹曼机模型及短文本主题分类系统和方法, 属于自然语言处理领域。
背景技术
近年来,在线社交网络平台(SNS)日益成为个人和组织结构的最重 要的交流平台之一。在这些平台中,用户不仅仅可以接收到最新的新闻 和信息,还可以自由的发表自己的观点和看法,每个用户都成为了所谓 的“自媒体”。因此,在线社交网络平台上产生了海量的异构的信息, 而这些信息有其独有的特征,最显著的特征是长度短,因此我们称之为 短文本。还有其他显著特点,比如内容丰富、表达方式不规范、主题比 较突出、实时性强等。
短文本的分类技术是其他与短文本有关的研究的基础,比如事件探 测、个性化推荐等。传统的文本分类技术,是以对比文档相似度为基础, 仅仅依赖词语表面上的相同,这类方法的明显不足之处在于对同义词或 近义词的识别上精确度不够。应用于短文本分类中,受到短文本数据特 征稀疏性的影响,效果非常不好
发明内容
本发明的技术解决问题:克服现有技术方案的不足,提供一种基于 深度玻尔兹曼机模型和短文本主题分类系统及方法,该系统及方法充分 利用挖掘短文本的隐藏语义信息,弥补传统短文本分类技术的不足,降 低了对文档表面相似度的依赖,使该系统应用具有准确度高、易于扩展 以及实用性强的优点。
本发明通过以下技术手段实现:
一种深度玻尔兹曼机模型,由一层可见层和两层隐藏层组成,可见 层和隐藏层包含若干随机二元单元,层与层之间存在连接,各层的节点 内部相互独立。
一种基于深度玻尔兹曼机的短文本的主题分类系统,包括:
短文本预处理模块,所述的短文本预处理模块用于采用基于正则表 达式的方法将短文本中包含的非文本数据和冗余信息删除;
短文本的特征表示模块,所述的短文本的特征表示模块将短文本数 据转换成向量形式;
模型训练模块,所述的模型训练模块采用含有双隐藏层的深度玻尔 兹曼机模型对训练集的短文本数据进行建模,构建主题分类器,所述的 模型训练模块包含预训练子模块和正式训练子模块;
短文本分类模块,所述的短文本分类模块根据模型训练模块训练所 得的分类器,对测试数据集的数据进行分类。
进一步的,所述的短文本的特征表示模块包含以下步骤:
S1,确定一个词典;
S2,对短文本进行分词处理;
S3,将分词后的短文本转换成向量形式,该向量的维数与字典长度相同, 元素值为与之对应单词在短文本中出现的次数。
一种深度玻尔兹曼机模型对短文本进行主题挖掘的方法,包含以下 步骤:
S1,对短文本进行建模,第一层表示可见的短文本数据,第一隐藏层表 示短文本隐藏的主题;
S2,第二隐藏层对第一隐藏层进行优先级控制;
S3,模型训练,所述的模型训练包含预训练与正式训练;所述的模型训 练为将训练集中的每个短文本数据看作是模型中的可见层,对文本数据 进行训练,学习出相应的模型参数,构建一个主题分类器。
进一步的所述的预训练包含以下步骤:
S301,初始化第二隐藏层;
S302,重构第一隐藏层;
S303,重构可见层;
S304,重构第一隐藏层;
S305,计算对比离散度;
S306,更新参数并返回到文本数据初始位置。
最后,所述的正式训练包含以下步骤:
S311,变分法重构第一隐藏层;
S312,变分法重构第二隐藏层;
S313,MCmC算法计算期望;
S314,更新参数并返回文本数据初始位置。
本发明与现有技术相比的优点在于:
(1)本发明提出了基于含有双隐藏层的深度玻尔兹曼机对短文本 进行主题建模的方法。传统的主题模型属于有向概率图模型,其参数推 理的算法非常耗时且不精确。此外,传统的主题模型以词语相似度为基 础,直接使用传统主题模型对短文本进行主题建模时,会因为短文本的 数据稀疏性而导致效果不好。而含有双隐藏层的深度玻尔兹曼机是一种 生成式无向概率图模型,采用变分法和马尔科夫链—蒙特卡洛算法进行 参数学习,相比于传统的主题模型,其参数推理的效率和准确度更高。 而且,含有双隐藏层的深度玻尔兹曼机是直接从短文本自身挖掘潜在主 题,不依赖于词语相似度对比,因此能够更好的表达出短文本的潜在语 义结构,从而达到更好的主题分类精确度;
(2)本发明摆脱了对人工标注的依赖。传统的主题模型方法属于监 督式学习,需要预先给定带有正确标注的训练集,而本发明提出的方法 是一种无监督式的特征学习方法,只需要给定词典和语料库,就能够自 主的学习出短文本的潜在主题信息。
附图说明
图1是本发明系统的体系结构图;
图2是本发明的模型预训练的具体过程;
图3是本发明的模型正式训练的具体过程。
具体实施方式
下面结合附图对本发明的实施方式进行详细说明,具体步骤如下:
如图1所示,该系统包括如下模块:
短文本预处理模块。社交网络平台上产生了海量的异构短文本数据, 这些短文本中包含大量的非文本数据和冗余信息,比如时间戳、用户名、 URL信息等,需要将这些无用信息过滤掉,我们采用基于正则表达式的 方法将这些信息从每个短文本中删除,只保留纯文本数据。
短文本的特征表示模块。由于计算机无法理解普通文本数据,因此 需要将文本数据转化成计算机能够处理的形式。采用向量空间模型,将 语料库中的所有短文本数据转换成向量形式。首先确定一个词典,然后 对短文本进行分词处理,最后将分词后的每个短文本转换成向量形式。 该向量的维数与字典长度相同,元素值为与之对应单词在短文本中出现 的次数。
模型训练模块:在短文本的向量模型基础上,将每个短文本视为模 型中的可见数据,模型中的第一隐藏层表示短文本的潜在主题结构。通 过训练模型,挖掘出短文本的潜在主题信息,进而构建主题分类器。其 中包含预训练子模块和正式训练模块:预训练是为了获得一组更加合理 的参数初始值,从而缩短正式训练的所花费的时间。在预训练中,采用 一步对比离散度算法学习模型参数,在正式训练中,采用平均场变分法 和基于马尔科夫链—蒙特卡洛算法对参数进行估计。
短文本分类模块:根据模型训练模块训练所得的分类器,对测试数 据集中的数据进行分类。
为了便于比较,我们采用一个公有的Twitter文本数据集,它是由文本 检索会议(TREC)提供的Tweet2011数据集,包含了2011年1月23号到 2月8号的一部分Twitter文本数据。
一、短文本预处理
在Tweet2011数据集中,包含大量的冗余信息,比如时间戳、用户名、 URL信息等,将这些无用信息过滤掉,对文本进行小写化和词根化处理。 具体步骤有:(1)去除用户名信息和时间戳信息,采用基于正则表达式的 方法;(2)单词小写化;(3)单词词根化;(4)去除重复文本。通过文本预 处理,语料库中拥有560万条短文本数据。我们随机的抽取60%的数据作 为训练集,剩下的作为测试集。
二、短文本特征表示
在本发明中,采用空间向量模型表示短文本。具体来说,首先选择一 个词典,该词典不仅仅包含常用英文单词,而且包含Twitter平台上所 特有的语言表达用语,总共计58110个单词。对语料库中的每一个文本, 将其转换成一个1×58110的向量。
三、模型训练
在本发明中,模型训练分为两个阶段,即预训练和正式训练。
在预训练过程中,如图2所示,对于每个短文本数据,我们用其初始 化第二隐藏层,然后使用一步对比离散度算法,对可见层和第一隐藏层 进行重构,然后采用梯度下降法进行参数的更新,从而得到参数的一组 初始值。
在正式训练过程中,如图3所示,在之前预训练得到的参数基础上, 采用平均场变分法重构第一隐藏层和第二隐藏层,基于马尔科夫链—蒙 特卡洛算法(MCMC算法)对参数进行估计,从而构建了一个含有双隐藏 层的深度玻尔兹曼机模型。
四、短文本分类
将第四步得到深度玻尔兹曼机模型对测试集中的短文本进行分类。
以上实施例仅用以说明而非限制本发明的技术方案,不脱离本发明精 神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当 中。本发明未详细描述的部分属于本领域公知技术。
机译: 机器视觉系统的装置和方法,包括建立点云模型和/或三维模型,该模型基于不同角度的多个图像并结合了来自摄像机运动和深度的深度信息以及包含导航系统的各种应用程序,包括导航系统估计深度模糊或自动对焦应用中使用的图像之间的相对模糊
机译: 3生成JNDD的3D显示方法的显着深度差模型和使用JNDD模型增强深度图像的系统
机译: 产生3D显示的JNDD(仅深度差)模型,使用JNDD模型增强深度图像的方法和系统