首页> 中文期刊> 《现代图书情报技术》 >基于短语表示学习的主题识别及其表征词抽取方法研究

基于短语表示学习的主题识别及其表征词抽取方法研究

         

摘要

【目的】从更具专指性和表征能力的短语语义表示角度,设计基于短语表示学习的主题识别及其表征词抽取方法。【方法】基于依存句法分析抽取短语构建短语序列,并将短语序列视作词序列,将用于词表示的表示学习模型扩展形成短语表示学习模型,得到短语的语义向量表示,并结合向量聚类方法形成短语语义表示视角下的主题识别方法;将短语以及根据聚类得到的对应主题类别号作为一个整体构建短语主题序列,设计形成主题短语向量表示模型,实现主题和短语在同一向量空间的语义表示并计算相似度,从短语语义角度抽取与主题内容相关的短语作为主题表征词。【结果】与LDA模型相比,主题间平均相似度最多降低了0.27,主题识别结果区分度更高;抽取的表征词与主题语义相关,具有专指性和辨识度,结果可读性和解释性更强。【局限】需要在不同领域及不同数据集上进一步验证该方法的有效性。【结论】所提方法在研究主题识别及其表征词抽取方面具有更好的效果,并可扩展应用到其他领域。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号