首页> 中文期刊>中文信息学报 >基于判别式分类和重排序技术的藏文分词

基于判别式分类和重排序技术的藏文分词

     

摘要

本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响.在构词粒度方面,分别考察了以基本字丁、基本字丁—音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构词粒度分词的F值最高,为91.21%;在分词结果重排序方面,提出一种基于词图的最短路径重排序策略,将判别式解码生成的切分结果压缩为加权有向图,图中节点表示音节间隔,而边所覆盖的音节作为候选切分并赋予不同权重,选择一条最短路径从而实现整句切分,最终分词结果的F值达到96.25%.

著录项

  • 来源
    《中文信息学报》|2014年第2期|61-65,90|共6页
  • 作者单位

    中国科学院计算技术研究所;

    中国科学院智能信息处理重点实验室,北京100190;

    中国科学院大学,北京,100049;

    青海师范大学藏文信息研究中心,青海西宁810008;

    青海师范大学藏文信息研究中心,青海西宁810008;

    中国科学院计算技术研究所;

    中国科学院智能信息处理重点实验室,北京100190;

    中国科学院计算技术研究所;

    中国科学院智能信息处理重点实验室,北京100190;

    中国科学院计算技术研究所;

    中国科学院智能信息处理重点实验室,北京100190;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    判别式; 藏文分词; 构词粒度; 重排序;

  • 入库时间 2022-09-01 14:35:58

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号