中文分词
中文分词的相关文献在2000年到2022年内共计1112篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播
等领域,其中期刊论文880篇、会议论文52篇、专利文献5420篇;相关期刊361种,包括现代图书情报技术、电脑编程技巧与维护、电脑知识与技术等;
相关会议45种,包括第33届中国数据库学术会议(NDBC2016 )、中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第十二届全国人机语言通讯学术会议(NCMMSC`2013)等;中文分词的相关文献由2350位作者贡献,包括刘挺、车万翔、龙华等。
中文分词
-研究学者
- 刘挺
- 车万翔
- 龙华
- 刘一佳
- 刘勇
- 李思
- 王冬
- 邵玉斌
- 刘伟
- 胡学钢
- 邵党国
- 顾磊
- 周国栋
- 张会鹏
- 张启宇
- 张敏
- 张梅山
- 徐蔚然
- 李寿山
- 柳艳红
- 王坚
- 赵海
- 郭瑞
- 郭祥
- 麦范金
- 黄德根
- 丁洁
- 何云
- 修驰
- 冯国明
- 冯鸿怀
- 刘光胜
- 刘素辉
- 包祖贻
- 吕学强
- 吕洪波
- 吴卫江
- 吴新丽
- 吴朝晖
- 周小平
- 周晗
- 周珍娟
- 姜明
- 姜晓红
- 姜育彦
- 孙健
- 孙忆南
- 孙海峰
- 宁更新
- 山岚
-
-
邬满;
文莉莉;
孙苗
-
-
摘要:
针对复杂海洋场景(目标多尺度、对象多样化、风格差异大、时空强关联且存在不确定性目标)特点,研究基于注意力机制的复杂图像有效特征提取方法,提出一种基于卷积神经网络(convolutional neural network,CNN)和长短时记忆网络(long short-term memory,LSTM)相结合的复杂海洋场景图像中文描述生成模型;结合Jieba分词工具,实现了对复杂海洋场景监测图像的自动翻译。利用91卫图助手及无人机高清影像数据,建立模型并对算法进行验证。结果表明,Inception-v4比VGG16模型有更强的复杂特征提取能力,在相同数据集下,Inception-v4模型的图像分类能力高出约5.3个百分点;基于卷积神经网络和长短时记忆模型的图像中文描述生成算法基本可行,可以解决批量图像的自动标注问题,但在算法的稳定性和描述的准确性上需进一步提高。
-
-
肖晓霞;
刘明婷;
杨冯天赐;
刘鉴建县;
杨阳;
石月
-
-
摘要:
中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为了实现中医医案快速结构化,提出了一种基于自然语言处理的中医医案文本快速结构化方法。将《中国现代名中医医案精粹》作为结构化对象,采用光学字符识别技术识别医案截图的文本,同时对文本做初步结构化。构建简单症状词典,采用结合词典的改进的N-gram模型获取医案文本中的症状、体征等词,并在结构化过程中更新词典,实现了对4754份文本医案的结构化。随机选取666份医案文本对最终模型进行测试,其F1值达到82.99%。
-
-
陈群;
吴郑红;
许哲;
金薇婕
-
-
摘要:
"择校热"引发的"入学难""天价房"等一系列社会性问题日益凸显。为遏制择校问题,《中共中央国务院关于深化教育教学改革全面提高义务教育质量的意见》要求推进义务教育学校免试就近入学全覆盖,旨在通过促进教育起点公平,营造良好的教育生态,从而促进社会公平。文章立足于信息化技术发展,运用中文分词技术和贝叶斯概率模型,试图构建一套落实义务教育阶段免试就近入学政策的实用入学分配策略,旨在促进义务教育学校免试就近入学政策精准高效落地。
-
-
刘洋;
余甜;
丁艺
-
-
摘要:
中文分词在自然语言处理中占据了十分重要的地位。为了提高中文分词的速度,论文提出了一种新的求解最大概率路径的方法。该方法主要分为两步:1)将词频总和的数值减小来解决下溢问题;2)避免使用复杂的计算方法,使用简单的除法操作来降低运行时间提高分词速度。最后,使用搜狗新闻数据集进行实验验证,新方法的中文分词速度相较于JIEBA的中文分词的速度显著提高,并且为了验证分词的性能,对准确率,召回率以及F1进行了计算,三个指标的值均可达到95%以上。
-
-
李书彬;
周安民
-
-
摘要:
中文短文本分类是自然语言处理的重要领域之一,文中提出了一种基于多维度图神经网络的短文本分类方法,通过对文档中的中文词语进行建模,分别构建序列边、词频边、主题边与结点信息相融合以达到提取深度语义信息的目的,提高图神经网络的分类能力。通过和现有方法对比,本文提出的基于多维度图神经网络的短文本分类方法具有更高的准确率,能够有效的达到中文短文本分类的目的。
-
-
王佳莉
-
-
摘要:
笔者所在学校在2020年下半年建立了人工智能实验室,在其畅言AI实验平台中,学生对自然语言处理中的四大名著分词颇有兴趣,并产生了疑问:中文分词和词频统计的核心算法是什么?针对这种情况,笔者利用Python编程,帮助学生掌握词频统计中的枚举算法。
-
-
韩士洋;
马致远;
杨芳艳;
李想;
汪伟
-
-
摘要:
成词信息是一种对中文分词任务十分重要的文本特征。最新中文分词模型之一的WMSEG就是通过引入成词信息来获得最顶尖的分词性能。然而这类模型在建模时并未考虑标签之间的依赖关系,导致其分词性能特别是对未登录词的识别有所欠缺。针对这一问题,通过在学习过程中引入标签嵌入的注意力机制,提出了一种带标签注意力的成词记忆网络来增强标签之间的依赖关系以及标签和字符之间的相关性。实验结果表明,该模型在四个常用数据集上都取得了不弱于WMSEG的分词性能,同时提高了对未登录词的识别能力。
-
-
王星;
于丽美;
陈吉
-
-
摘要:
作为自然语言处理任务的基础,中文分词的准确率直接影响命名实体识别、信息检索等任务的效果.针对现有分词模型使用的静态词向量精确表征能力较差和专业领域分词中模型适应性差等问题,本文提出一种使用字根信息为辅助特征的中文分词模型.模型分为主任务和辅助任务,主任务中使用ALBERT语言模型训练词向量,利用去池化卷积残差神经网络提取特征,与辅助任务抽取的特征融合后进行分词.辅助任务使用字根向量表示文本,通过浅层卷积提取特征,进行序列标注.借助损失函数利用辅助任务对主任务进行纠正,协助主任务实现中文分词.在BakeOff2005语料库的4个数据集以及两个小型法律文书数据集上进行实验,实验表明该文提出的分词模型在多数大型数据集上实验效果达到最优,并且在小型法律数据集上F1值最高达到97.90%.
-
-
邵党国;
黄初升;
马磊;
贺建峰;
易三莉
-
-
摘要:
中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一。因此,提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的分词模型,其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型。该模型在仅使用少量中文医学领域标记数据的情况下,在该领域的分词任务上获得了较好的分词效果,实验结果中的最优F1值为95.54%,相比单独使用中文医学语料训练的分词模型,有比较明显的提升。
-
-
杨淑莹;
田迪;
郭杨杨;
赵敏
-
-
摘要:
为便利听障人士的正常社会生活,提高其社会融入度,设计开发了基于B/S模式的仿真手语翻译系统。此系统包含语音识别模块、文本分词模块和虚拟人控制模块。采集到的语音经过Mel尺度的小波包分解提取语音声学特征,并进行快速语音识别得到对应文本,使用jieba完成对应的文本分词;同时创建仿真虚拟人模型并为其添加关键帧手语动作,使用Three.js实现Web端仿真手语动作渲染,最终实现语音到仿真手语的翻译过程。此系统操作方便、实用性强,具有很好的应用前景。
-
-
秦海鹏;
桑孝伟
- 《第十一届全国地质档案资料学术研讨会》
| 2018年
-
摘要:
中文分词是利用计算机自动识别文本中词的边界的过程,是中文原始文本处理最重要的预处理步骤.目前,北京地质资料馆拥有近万档电子化成果地质资料,但是作为公益投资形成的、具有社会服务属性的准公共产品,仍属于不完整的信息产品,难以开展二次开发.本文探讨利用中文分词模块分析成果地质资料的摘要文本相似性,为馆内后续利用计算机进行文本分类、信息检索、信息过滤等后续中文文本信息处理打下基础.
-
-
-
-
吴佳林;
唐晋韬;
李莎莎;
王挺
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
本文提出了一种基于神经网络的中文分词方法,以提高分词系统向新领域迁移的适应性和灵活性.本文方法采用了对现有分词器分词结果进行纠正的思路.这种基于纠正的两阶段方法与分词模型解耦,避免了对源领域语料和分词器构建方式的依赖.然而现有的基于纠正的方法依赖于特征工程,无法自动适应不同领域.本文利用神经网络对纠正器进行建模,在无需手工设计特征的情况下即可实现领域适应.实验表明,与当前方法相比,文本方法在领域文本上具有更好的分词性能和鲁棒性,尤其在未登录词召回率方面提升显著.
-
-
张婧;
黄德根;
黄锴宇;
刘壮;
孟祥主
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差.针对此问题,本文提出一种新的主动学习方法从大规模未标注语料中挑选更具标注价值的微博分词语料.该方法根据微博语料的特点,在主动学习迭代过程中引入参数λ来控制所选的重复样例的个数,确保了所选样例的多样性;同时,根据样例中字标注结果的不确定性和上下文的多样性,采用Max、Avg和AvgMax三种策略衡量样例整体的标注价值;此外,用于主动学习的初始分词器除了使用当前字的上下文作为特征外,还利用字向量自动计算当前字成为停用字的可能性作为模型的特征.实验使用NLPCC2015公开的训练语料和测试语料,结果表明,本文提出的基于主动学习的分词方法,其F值较基线系统提高了0.84%~1.49%,与目前最优的WBA主动学习方法相比提升效果更加显著.
-
-
-
-
Mu HongFen;
母红芬;
Li Zheng;
李征;
Jiao YongQiang;
焦永强;
Cheng XinYu;
程新宇
- 《第33届中国数据库学术会议(NDBC2016 )》
| 2016年
-
摘要:
根据军工软件质量管理要求,航空系统软件测试用例需要进行规范化管理及高效的复用,TCARS系统基于主题模型,通过主题挖掘判断需求的相似性和需求与用例的关联性,实现测试用例高效复用.系统先建立测试用例管理知识库和需求管理库,对新上传的测试用例和需求,经过中文分词和LDA主题抽取处理,自动推荐相似需求和相关测试用例.系统同时推荐与文档相关的标签,方便用户标记和查找所需用例和需求.用户也可以定制搜索条件,通过精确匹配和模糊匹配,查找所需测试用例和需求,对主题生成过程和结果进行可视化,有利于系统分析和优化.
-
-
CHEN Xi;
陈熙;
ZHAO Huan;
赵欢
- 《中国计算机用户协会网络应用分会2016年第二十届网络新技术与应用年会》
| 2016年
-
摘要:
随着信息技术的普及与应用,人们可以使用互联网来获取所有需要的信息,而近几年对旅游信息的需求呈现出前所未有的发展态势.通过分析与抓取国内众多知名旅游网站的相关数据,将数据抓取工具集成到云计算环境中,从而构建出一个性能良好的分布式搜索引擎,使得海量数据的抓取更加快速和可靠;并对抓取后的数据进行中文分词,采用增加IKAnalyzer中文分词器对中文词语进行处理的方法,来对搜索的信息进行中文索引,进而得到基于所抓取旅游网站的高频旅游信息关键词;最后使用全文搜索服务器搭建中文旅游信息搜索平台.
-
-
LIU Hang;
刘航;
LIU Mingtong;
刘明童;
ZHANG Yujie;
张玉洁;
XU Jinan;
徐金安;
CHEN Yufeng;
陈钰枫
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018)》
| 2018年
-
摘要:
在汉语一体化依存分析中,如何利用分词、词性标注和句法分析的中间结果作为分析特征成为核心问题,也是三个任务相互制约协调、共同提高性能的关键所在.目前无论基于特征工程的方法还是基于深度学习的方法尚无法充分利用分析过程中依存子树的完整信息,而依存子树作为中间结果的主要成分对三个任务的后续分析具有重要的指导意义.为解决该问题,本文在基于转移的依存分析框架下,提出Stack-Tree LSTM依存子树编码方法,通过对分析栈中所有依存子树的有效建模,获取任意时刻的依存子树的完整信息作为特征参与转移动作决策.利用该编码方式提出词性特征使用方法,融合N-gram特征构建汉语一体化依存分析神经网络模型.最后在宾州汉语树库上进行了验证实验,并与已有方法进行了比较.实验结果显示本文提出的模型在分词、词性标注和依存分析任务上的性能非常接近特征工程最好的结果,并且均超过已有的一体化依存分析神经网络模型.