您现在的位置: 首页> 研究主题> 中文分词

中文分词

中文分词的相关文献在2000年到2022年内共计1112篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播 等领域,其中期刊论文880篇、会议论文52篇、专利文献5420篇;相关期刊361种,包括现代图书情报技术、电脑编程技巧与维护、电脑知识与技术等; 相关会议45种,包括第33届中国数据库学术会议(NDBC2016 )、中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第十二届全国人机语言通讯学术会议(NCMMSC`2013)等;中文分词的相关文献由2350位作者贡献,包括刘挺、车万翔、龙华等。

中文分词—发文量

期刊论文>

论文:880 占比:13.85%

会议论文>

论文:52 占比:0.82%

专利文献>

论文:5420 占比:85.33%

总计:6352篇

中文分词—发文趋势图

中文分词

-研究学者

  • 刘挺
  • 车万翔
  • 龙华
  • 刘一佳
  • 刘勇
  • 李思
  • 王冬
  • 邵玉斌
  • 刘伟
  • 胡学钢
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 邬满; 文莉莉; 孙苗
    • 摘要: 针对复杂海洋场景(目标多尺度、对象多样化、风格差异大、时空强关联且存在不确定性目标)特点,研究基于注意力机制的复杂图像有效特征提取方法,提出一种基于卷积神经网络(convolutional neural network,CNN)和长短时记忆网络(long short-term memory,LSTM)相结合的复杂海洋场景图像中文描述生成模型;结合Jieba分词工具,实现了对复杂海洋场景监测图像的自动翻译。利用91卫图助手及无人机高清影像数据,建立模型并对算法进行验证。结果表明,Inception-v4比VGG16模型有更强的复杂特征提取能力,在相同数据集下,Inception-v4模型的图像分类能力高出约5.3个百分点;基于卷积神经网络和长短时记忆模型的图像中文描述生成算法基本可行,可以解决批量图像的自动标注问题,但在算法的稳定性和描述的准确性上需进一步提高。
    • 肖晓霞; 刘明婷; 杨冯天赐; 刘鉴建县; 杨阳; 石月
    • 摘要: 中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为了实现中医医案快速结构化,提出了一种基于自然语言处理的中医医案文本快速结构化方法。将《中国现代名中医医案精粹》作为结构化对象,采用光学字符识别技术识别医案截图的文本,同时对文本做初步结构化。构建简单症状词典,采用结合词典的改进的N-gram模型获取医案文本中的症状、体征等词,并在结构化过程中更新词典,实现了对4754份文本医案的结构化。随机选取666份医案文本对最终模型进行测试,其F1值达到82.99%。
    • 陈群; 吴郑红; 许哲; 金薇婕
    • 摘要: "择校热"引发的"入学难""天价房"等一系列社会性问题日益凸显。为遏制择校问题,《中共中央国务院关于深化教育教学改革全面提高义务教育质量的意见》要求推进义务教育学校免试就近入学全覆盖,旨在通过促进教育起点公平,营造良好的教育生态,从而促进社会公平。文章立足于信息化技术发展,运用中文分词技术和贝叶斯概率模型,试图构建一套落实义务教育阶段免试就近入学政策的实用入学分配策略,旨在促进义务教育学校免试就近入学政策精准高效落地。
    • 刘洋; 余甜; 丁艺
    • 摘要: 中文分词在自然语言处理中占据了十分重要的地位。为了提高中文分词的速度,论文提出了一种新的求解最大概率路径的方法。该方法主要分为两步:1)将词频总和的数值减小来解决下溢问题;2)避免使用复杂的计算方法,使用简单的除法操作来降低运行时间提高分词速度。最后,使用搜狗新闻数据集进行实验验证,新方法的中文分词速度相较于JIEBA的中文分词的速度显著提高,并且为了验证分词的性能,对准确率,召回率以及F1进行了计算,三个指标的值均可达到95%以上。
    • 李书彬; 周安民
    • 摘要: 中文短文本分类是自然语言处理的重要领域之一,文中提出了一种基于多维度图神经网络的短文本分类方法,通过对文档中的中文词语进行建模,分别构建序列边、词频边、主题边与结点信息相融合以达到提取深度语义信息的目的,提高图神经网络的分类能力。通过和现有方法对比,本文提出的基于多维度图神经网络的短文本分类方法具有更高的准确率,能够有效的达到中文短文本分类的目的。
    • 王佳莉
    • 摘要: 笔者所在学校在2020年下半年建立了人工智能实验室,在其畅言AI实验平台中,学生对自然语言处理中的四大名著分词颇有兴趣,并产生了疑问:中文分词和词频统计的核心算法是什么?针对这种情况,笔者利用Python编程,帮助学生掌握词频统计中的枚举算法。
    • 韩士洋; 马致远; 杨芳艳; 李想; 汪伟
    • 摘要: 成词信息是一种对中文分词任务十分重要的文本特征。最新中文分词模型之一的WMSEG就是通过引入成词信息来获得最顶尖的分词性能。然而这类模型在建模时并未考虑标签之间的依赖关系,导致其分词性能特别是对未登录词的识别有所欠缺。针对这一问题,通过在学习过程中引入标签嵌入的注意力机制,提出了一种带标签注意力的成词记忆网络来增强标签之间的依赖关系以及标签和字符之间的相关性。实验结果表明,该模型在四个常用数据集上都取得了不弱于WMSEG的分词性能,同时提高了对未登录词的识别能力。
    • 王星; 于丽美; 陈吉
    • 摘要: 作为自然语言处理任务的基础,中文分词的准确率直接影响命名实体识别、信息检索等任务的效果.针对现有分词模型使用的静态词向量精确表征能力较差和专业领域分词中模型适应性差等问题,本文提出一种使用字根信息为辅助特征的中文分词模型.模型分为主任务和辅助任务,主任务中使用ALBERT语言模型训练词向量,利用去池化卷积残差神经网络提取特征,与辅助任务抽取的特征融合后进行分词.辅助任务使用字根向量表示文本,通过浅层卷积提取特征,进行序列标注.借助损失函数利用辅助任务对主任务进行纠正,协助主任务实现中文分词.在BakeOff2005语料库的4个数据集以及两个小型法律文书数据集上进行实验,实验表明该文提出的分词模型在多数大型数据集上实验效果达到最优,并且在小型法律数据集上F1值最高达到97.90%.
    • 邵党国; 黄初升; 马磊; 贺建峰; 易三莉
    • 摘要: 中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一。因此,提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的分词模型,其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型。该模型在仅使用少量中文医学领域标记数据的情况下,在该领域的分词任务上获得了较好的分词效果,实验结果中的最优F1值为95.54%,相比单独使用中文医学语料训练的分词模型,有比较明显的提升。
    • 杨淑莹; 田迪; 郭杨杨; 赵敏
    • 摘要: 为便利听障人士的正常社会生活,提高其社会融入度,设计开发了基于B/S模式的仿真手语翻译系统。此系统包含语音识别模块、文本分词模块和虚拟人控制模块。采集到的语音经过Mel尺度的小波包分解提取语音声学特征,并进行快速语音识别得到对应文本,使用jieba完成对应的文本分词;同时创建仿真虚拟人模型并为其添加关键帧手语动作,使用Three.js实现Web端仿真手语动作渲染,最终实现语音到仿真手语的翻译过程。此系统操作方便、实用性强,具有很好的应用前景。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号