首页> 中国专利> 主题模型和语义分析相结合的文本标签自动抽取方法

主题模型和语义分析相结合的文本标签自动抽取方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及主题模型和语义分析相结合的文本标签自动抽取方法，属于计算机应用技术领域。本发明包括预处理、LDA建模及上下文分析和标签提取。所述预处理包括去掉低频词、去掉停止词及去掉标记信息所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号；LDA建模过程为：文件经过LDA模型处理后，得到两个矩阵：一个是N×K的“文档‑主题”矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布；另一个是K×M“主题‑词”矩阵，矩阵的每个元素对应的是每个主题的词分布；相比目前的基于统计的方法，本发明不仅考虑了文档中词和词的关联，也充分利用了上下文信息中一些关键特征，最终得到文档的标签信息。

著录项

公开/公告号CN106055538B

专利类型发明专利
公开/公告日2019-03-08

原文格式PDF
申请/专利权人达而观信息科技(上海)有限公司;
展开▼

申请/专利号CN201610361639.1
发明设计人于敬;
展开▼

申请日2016-05-26
分类号G06F17/27(20060101);
代理机构11541 北京卓唐知识产权代理有限公司;
代理人龚洁
地址 200000 上海市浦东新区浦东张江祖冲之路2305号1208室
入库时间 2022-08-23 10:27:40

法律信息

法律状态公告日

法律状态信息

法律状态
2019-03-08

授权

授权
2016-11-23

实质审查的生效 IPC(主分类):G06F17/27 申请日:20160526

实质审查的生效
2016-11-23

实质审查的生效 IPC(主分类):G06F 17/27 申请日:20160526

实质审查的生效
2016-10-26

公开

公开
2016-10-26

公开

公开

相似文献

专利
中文文献
外文文献

1. 主题模型和语义分析相结合的文本标签自动抽取方法 [P] . 中国专利： CN106055538B . 2019.03.08
2. 主题模型和语义分析相结合的文本标签自动抽取方法 [P] . 中国专利： CN106055538A . 2016-10-26
3. Extracting compartment automatic extraction system partition in music, compartment automatic extraction program compartments and automatic extraction method [P] . 日本专利： JP5145939B2 . 2013-02-20

机译：音乐中的抽取室自动抽取系统分区，分区自动抽取程序分区和自动抽取方法
4. Semantic analysis device, semantic analysis method, semantic analysis program, and recording medium recording semantic analysis program [P] . 日本专利： JP5325665B2 . 2013-10-23

机译：语义分析装置，语义分析方法，语义分析程序以及记录该语义分析程序的记录介质
5. SEMANTIC ANALYSIS DEVICE, SEMANTIC ANALYSIS METHOD, SEMANTIC ANALYSIS PROGRAM, AND RECORDING MEDIUM WITH SEMANTIC ANALYSIS PROGRAM STORED THEREIN [P] . 日本专利： JP2010287181A . 2010-12-24

机译：语义分析装置，语义分析方法，语义分析程序以及存储有其中的语义分析程序的媒体