首页> 中文期刊>现代图书情报技术 >中文短信文本信息流中多话题的分类抽取

中文短信文本信息流中多话题的分类抽取

     

摘要

[目的]为更有效地在中文短信文本信息流(SMS Text Message Flow,SM_F)中进行多话题的分类提取,提出一种基于SM F特点的话题分类抽取方法SM F HT.[方法]将SM F分割成多个短信文本子集SM_Fi,通过层次的狄利克雷过程信息抽取与TF-IDF相结合,建立短信文本向量集上多个概率分布,采用吉布斯抽样并结合特征词属于临时话题的概率进行SM F话题分类抽取.[结果]实验结果表明,SM F HT在困惑度和对数似然比方面优越于模型CCLDA和CCMix.[局限]在短信文本预处理和特征词的抽取方面,还需进一步优化算法和提高数据质量.[结论]提出的SM_F_HT方法对SM F的多话题分类抽取是有效的.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号