首页> 中文期刊>微计算机信息 >一种无词典快速抽词算法的设计和实现

一种无词典快速抽词算法的设计和实现

     

摘要

中文抽词在中文自然语言处理中是最基础的工作.本文提出了一种无词典的t-score和二分相结合的抽词算法.它首先对原始文本进行预处理.利用噪音词的辅助信息来做初始切分.经过处理后一部分词被抽取出来,存入结果集.接着利用本文的抽词算法来进行二次抽词.本算法应用了N-GrRm的思想.经过实验证明,该算法不但抽词速度快.而且抽取出的词相对长度大,维护了中文语言的完整性.为进一步进行语义分析和索引构建打下了良好的基础.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号