首页> 中国专利> 基于描述文本词频的图模型移动应用分类方法

基于描述文本词频的图模型移动应用分类方法

摘要

本发明提出了一种基于描述文本词频的图模型移动应用分类方法,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测。本发明能够提高移动应用分类的准确度,更有助于移动应用商店向用户提供服务。

著录项

  • 公开/公告号CN112632984A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 南京理工大学;

    申请/专利号CN202011312652.0

  • 发明设计人 王兆煜;刘光杰;刘伟伟;

    申请日2020-11-20

  • 分类号G06F40/289(20200101);G06F40/284(20200101);G06F40/216(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32203 南京理工大学专利中心;

  • 代理人封睿

  • 地址 210094 江苏省南京市玄武区孝陵卫200号

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及一种移动应用分类方法,尤其是一种基于描述文本词频的图模型移动应用分类方法。

背景技术

随着移动设备的日益普及,移动应用的数量呈现爆发式的增长。为了方便用户下载并使用,各类移动应用商店在网络上相继出现,如国内的豌豆荚、小米应用市场、腾讯商店,国外的App Store、Google Play等。这些应用商店主要通过两种方式向消费者提供移动应用下载和相应的后续服务:(1)用户通过输入关键词进行搜索,应用商店根据关键词查找并返回相关的移动应用;(2)应用商店根据用户的历史浏览和下载记录,以首页推荐等形式展示可能会吸引用户的移动应用。这两种方法都依赖于对移动应用的预先分类,良好的分类体系和对应用的精准分类结果能大大提高搜索服务和推荐服务的效率。通过将用户需求定位到某几种特定的应用分类簇,并从中更进一步的精准选择移动应用,可以有效地提升用户体验。

针对移动应用的分类问题已经有了一些研究结果,它们主要把移动应用分类问题转换成文本分类问题,其分类方法大多依赖于用户对应用的评论信息(如文字反馈和星级评价等)、应用名称、描述信息等,运用文本处理、主题模型、机器学习等方法实现移动应用主题的提取,并进一步完成移动应用的分类。这些方法都取得了一定的成果,但也存在着一些问题没有考虑。(1)用户的评论信息往往是无序且混乱的,其中包含了垃圾评论或仅是重复星级评价的文字,很难从中筛选和处理出有用的信息;(2)移动应用的描述信息质量参差不齐,且文本长度跨度较大,以往的文本表示技术往往不足以准确表征移动应用的文本内容; (3)移动应用描述文本中,不是所有的词都对移动应用的分类有相同的贡献。

发明内容

本发明的目的在于提出一种基于描述文本词频的图模型移动应用分类方法。

实现本发明目的的技术解决方案为:一种基于描述文本词频的图模型移动应用分类方法,具体步骤如下:

步骤1,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;

步骤2,取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;

步骤3,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用 softmax激活函数完成对移动应用的分类与预测。

进一步的,步骤1中,利用分词工具将所有应用的描述文本分割成句子,并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤,记录所有出现过的单个词组和应用所属的类别,具体过程如下:

步骤1.1:语料分词和低频词统计:使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理,进一步对分句后的结果进行分词和词性标注,对照百度自然语言实验室公开的停用词列表,去除其中包含的停用词;

步骤1.2:低频词过滤:分别统计分词结果中各词的全局频率和在单一类别下的出现频率,按照比例去除其中出现次数过少的词语,重新将结果保存,并计算每条训练语料在经过过滤后的文本长度,去除其中长度较小的语料,由此得到能充分支撑模型训练特征需求的文本语料;

步骤1.3:类别标记:记录所有出现过的单个词组和应用所属的类别,每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。

进一步的,步骤2中,取训练语料中每条文本的分词结果,以类别C、词W 和应用D作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图,具体方法为:

步骤2.1,结合TF-KAI算法,根据词在类别中、词在应用语料中出现的频次计算生成每个词对应每个类别和应用间的权值比重,作为无向图中相应节点的边权重;

(1)对于词节点和类别节点间的边权重计算,采用类似于TF-IDF的计算方法,来衡量词和每种类别之间的对应关系,公式如下:

其中,

(2)对于词节点和应用节点间的边权重计算,采用交叉熵的计算方法,公式如下:

其中,E(i)表示词i的交叉熵,

对词i的交叉熵进行归一化,得到:

其中,NE(i)表示归一化后的熵值,E

将归一化后的熵值与TF-KAI算法相结合,得到:

其中,

步骤2.2,计算应用和类别间的权重,以此作为无向图中应用节点和类别节点间的边权重,即对于应用和类别间的边权重,将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加,公式如下:

其中,

步骤2.3,使用PMI方法衡量词与词之间的联系信息,并作为无向图中词节点相互之间的边权重PMI(i,j),即对于词节点之间的边权重,使用PMI方法衡量词与词之间的相关信息,公式如下:

式中,PMI(i,j)表示词节点相互之间的边权重,p(i,j)是词i和词j同时出现的频度,p(i)是词i出现的频度,p(j)是词j出现的频度,计算公式为:

其中,#W(i)表示语料中包含词i的滑动窗口个数,#W(i,j)表示语料中同时包含词i和词j的滑动窗口个数,#W表示语料中滑动窗口的总个数,滑动窗口的大小根据语料长短可以自行调整;

步骤2.4,综合上述边权重信息,得到邻接矩阵A,公式如下:

步骤2.5,为了缓解图模型固有的模型不收敛等问题,加入自循环结构,确定最终的邻接矩阵A′=A+I。

进一步的,步骤3中,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测,具体方法如下:

步骤3.1,构建两层的图卷积模型,实现节点权重向量的迭代运算;

图卷积网络(graphconvolutionnetwork,GCN)作为一种多层神经网络,直接在所构建好的无向异构图上运行,并根据节点邻域的性质和联系信息不断更新节点向量,更新公式如下:

其中,H

其中,P是邻接矩阵A′的度矩阵,其中矩阵P的主对角元素

步骤3.2,在两层图卷积结构后,加入全连接层,使用softmax激活函数完成所有移动应用的分类与预测,其公式为:

其中,

步骤3.3,构建训练损失函数,以监督学习的方式训练模型,计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值。

更进一步的,损失函数具体如下:

其中,D

一种基于描述文本词频的图模型移动应用分类系统,基于上述方法进行图模型移动应用分类。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法进行图模型移动应用分类。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法进行图模型移动应用分类。

本发明与现有技术相比,其显著优点为:在Text-GCN模型的基础上,在无向图的构建中引入了更多种类的节点信息,深度运用了词在类别和应用文本中的频率信息,结合PMI、TF-KAI等方法设置了节点间的权,与其他方法对比,本发明能够提高移动应用分类的准确度,更有助于移动应用商店向用户提供服务。

附图说明

图1为基于et-gcn的文本分类方法流程示意图;

图2是et-gcn的整体网络模型示意图;

图3是不同方法下测试数据的精确率、回归率、F1率示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

如图1所示,基于描述文本词频的图模型移动应用分类方法(基于et-gcn 的文本分类方法),包含以下步骤:

步骤1中,利用分词工具将所有应用的描述文本分割成句子,并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤,记录所有出现过的单个词组和应用所属的类别,具体过程如下:

步骤1.1:语料分词和低频词统计,使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理,进一步对分句后的结果进行分词和词性标注,对照百度自然语言实验室公开的停用词列表,去除其中包含的停用词。

步骤1.2:低频词过滤,分别统计分词结果中各词的全局频率和在单一类别下的出现频率,按照一定比例去除其中出现次数过少的词语,重新将结果保存,并计算每条训练语料在经过过滤后的文本长度,去除其中长度较小的语料,由此得到能充分支撑模型训练特征需求的文本语料。然后记录所有出现过的单个词组和应用所属的类别,每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。

步骤2中,获取训练语料中每条文本的分词结果,以词、应用和类别三种节点构建无向图,如图2所示,具体步骤如下:

构建无向加权异构网络图:G=(V,E),其中,以类别C、词W和应用D作为节点V,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重。具体表现为一个N阶矩阵,其中N等于所有类别、词和应用的总数之和,矩阵中的元素为相应行与列的权重关系,即节点间的边权重。

步骤2.1:对于词节点和类别节点间的边权重计算,采用一种类似于TF-IDF 的计算方法,来衡量词和每种类别之间的对应关系,公式如下:

其中,

对于词节点和应用节点间的边权重计算,采用交叉熵的计算方法,公式如下:

其中,E(i)表示词i的交叉熵,

对词i的交叉熵进行归一化,得到:

其中,NE(i)表示归一化后的熵值,E

将归一化后的熵值与TF-KAI算法相结合,得到:

其中,

步骤2.2:对于应用和类别间的边权重,将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加,公式如下:

其中,

步骤2.3:对于词节点之间的边权重,使用PMI方法衡量词与词之间的相关信息,公式如下:

式中,PMI(i,j)表示词节点相互之间的边权重,p(i,j)是词i和词j同时出现的频度,p(i)是词i出现的频度,p(j)是词j出现的频度,计算公式为:

其中,#W(i)表示语料中包含词i的滑动窗口个数,#W(i,j)表示语料中同时包含词i和词j的滑动窗口个数,#W表示语料中滑动窗口的总个数,滑动窗口的大小根据语料长短可以自行调整;

步骤2.4,综合上述边权重信息,构建起一个完整的无向图结构,还可以得到N阶邻接矩阵A,公式如下:

步骤2.5,为了缓解图模型固有的模型不收敛等问题,加入自循环结构,确定最终的邻接矩阵A′=A+I,其中I为单位矩阵。

步骤3中,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测具体方法如下:

步骤3.1,构建两层的图卷积模型,实现节点权重向量的迭代运算;

图卷积网络作为一种多层神经网络,直接在所构建好的无向异构图上运行,并根据节点邻域的性质和联系信息不断更新节点向量,更新公式如下:

其中,H

其中,P是邻接矩阵A′的度矩阵,其中矩阵P的主对角元素

步骤3.2,在两层图卷积结构后,加入全连接层,使用softmax激活函数完成所有移动应用的分类与预测,其公式为:

其中,

步骤3.3,构建训练损失函数,以监督学习的方式训练模型,计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值,其中损失函数具体如下:

其中,D

模型预测的结果经过归一化处理后,其中分布概率最大的类型即为模型训练后自动分类的结果,将其与实际分类标签相比较,依照损失函数计算公式计算当前整体损失值,通过不断迭代计算模型,在当前结果下继续训练分类模型,以缩小与实际分类标签的差距。

本发明还提出一种基于描述文本词频的图模型移动应用分类系统,基于上述方法进行图模型移动应用分类。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法进行图模型移动应用分类。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法进行图模型移动应用分类。

实施例

为了更好地验证本发明提出的基于text-gcn的移动应用分类模型et-gcn相较其他常见文本分类算法拥有更大优势,使用相同的实验数据进行多种常见的机器学习分类器的实验。实验选取了朴素贝叶斯(NaiveBayes)、决策树(J48)、多层感知机(MultilayerPerceptron),LSTM,BERT,text-gcn一共6种文本分类方法,统一采用十折交叉验证方法进行训练、学习。

基于6种文本分类器的最终的实验结果如图3所示。整体上,常见分类器的分类情况不够理想。Text-gcn和BERT的分类模型效果相对较好,其中text-gcn 达到最高的分类正确率70.05%。而本发明提出的基于et-gcn的改进分类模型能达到75.13%的正确率,优于这些分类模型。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号