自动分词
自动分词的相关文献在1986年到2022年内共计295篇,主要集中在自动化技术、计算机技术、汉语、信息与知识传播
等领域,其中期刊论文244篇、会议论文39篇、专利文献1351457篇;相关期刊148种,包括情报学报、情报杂志、现代图书情报技术等;
相关会议30种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第14届中国少数民族语言文字信息处理学术研讨会、第四届全国少数民族青年自然语言信息处理学术研讨会等;自动分词的相关文献由461位作者贡献,包括郑家恒、杨宪泽、陈小荷等。
自动分词—发文量
专利文献>
论文:1351457篇
占比:99.98%
总计:1351740篇
自动分词
-研究学者
- 郑家恒
- 杨宪泽
- 陈小荷
- 李斌
- 王成平
- 吴岩
- 宋柔
- 文庭孝
- 王彩荣
- 罗智勇
- 陈顺强
- 黄德根
- 于洪志
- 亢临生
- 刘挺
- 刘迁
- 孙茂松
- 安见才让
- 揭春雨
- 杨尔弘
- 焦慧
- 章森
- 谈文蓉
- 贾惠波
- 邱均平
- 金平艳
- 魏晓宁
- 黄昌宁
- 黄玉基
- 黄祥喜
- 乔保军
- 乔羽
- 于学金
- 付海辰
- 何克抗
- 侯敏
- 侯经川
- 冷鹏
- 刘亚琛
- 刘新
- 刘曼
- 刘源
- 刘畅
- 吕强
- 姚敏
- 姚登峰
- 孙继林
- 宗成庆
- 张培颖
- 张敏
-
-
陈志锋
-
-
摘要:
传统网络检索自动分词系统存在检索速度慢、分词准确率和召回率低等问题,为解决上述问题,设计基于数据挖掘的网络检索自动分词系统。首先,依据网络检索自动分词器的工作原理对网络检索词汇进行分类;其次,基于数据挖掘技术挖掘词汇数据库中的网络检索词汇数据,利用分词主题来查询网络检索主题,将搜索后的网络检索结果与主题相匹配,以完成网络检索词汇的分词处理;最后,根据词频数据总和与阈值的关系,改进网络检索自动分词算法。实验结果表明:所设计系统对人民日报BCC语料网络检索词汇的自动分词准确率为94.33%,召回率为91.87%,F值为90.29%,且系统的平均分词速度达到了127 kb/s。
-
-
刘畅;
王东波;
胡昊天;
张逸勤;
李斌
-
-
摘要:
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
-
-
黄建新
-
-
摘要:
为了对公共资源电子交易平台运行过程中产生的大规模结构化或非结构化的电子数据进行分析和利用,充分挖掘公共资源交易数据的价值,并提升电子交易水平和监管能力,本文设计了一种大数据平台的建设和应用方法,通过建立分层平台架构,集成自动分词、OCR文字识别、音频识别等技术,实现数据自动汇聚的能力;通过建立算法工具箱,实现数据汇聚、数据存储、算法管理、数据驾驶舱等多个子系统,完成公共资源电子交易大数据平台的建设。实践的结果表明,基于本文方法建设的大数据平台在实际的客户业务中部署使用,能够起到良好的应用效果。
-
-
王进;
张义
-
-
摘要:
古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度神经网络模型等自动分词方法研究现状的梳理,指明充分利用深度学习技术是古汉语自动分词的未来发展趋势,并对古汉语自动分词的探索提出了三个方面的展望:扩充古汉语分词语料数据量、构建适应不同文本领域的分词模型、开发一体化模型。
-
-
王东波
-
-
摘要:
正所谓工欲善其事必先利其器,深度学习以其模型结构的深度性、特征获取的自动性,在非结构化文本的自动分词、词性标注、组块识别、句法分析、语义标注、分类与聚类、关联知识发现等知识组织与挖掘研究任务上取得了优异的成绩或在一定程度上实现了质的飞跃,从而得到了迅速和广泛的应用和推广。而对于深度学习来说,数据特别精加工的数据是其根本,脱离数据而谈深度学习无异于追求镜中花、水中月,终无所成。
-
-
高毅
-
-
摘要:
在自然语言的智能处理领域中,相较于现代汉语,古汉语的研究由于可用有效标注资源有限、种类欠缺,使得古汉语自然语言处理技术的发展相对缓慢.针对古汉语的分词任务,文中借助于双向最大匹配法则,通过训练多种古汉语语料库建立适用于古汉语自动分词的BERT模型,并在多种语料库上进行实验分析.与使用一般神经网络的模型相比,文中所提模型具有更优的训练效果.数据实验结果表明,在3种古汉语文献中双向匹配多阶段迭代训练分词方法获得的F1值分别为96.4%、96.4%、95.4%;而一般神经模型所获得的F1值为92.8%、92.8%和90.5%,即文中方法在古汉语的自动切词任务上具有更优的性能表现.
-
-
陈倩;
乐红兵
-
-
摘要:
词典是汉语自动分词的基础,减少交集型歧义可以提高分词的准确率.在基于词典切分中,传统的Trie树每个节点存储一个字符,构建时产生了很多空指针.为了优化词典存储结构,在Trie树的基础上,采用双字Hash机制:把Trie索引树的深度限制为2,词的剩余字符串则按序组成类似"整词二分"的词典正文,并在每组词语的叶子节点上增加词频和词性的属性值,用于后序的交集型歧义识别.加载了搜狗实验室中文互联网语料统计出的15万条高频词,平均大小为60KB的5篇不同领域的测试语料作为测试样本.实验结果表明:相比其他词典而言,双字Hash分词速度得到显著提高,分词的正确率达到93.1%,基本可以满足实用型中文信息处理系统的需要.
-
-
庞宇
-
-
摘要:
近几年,随着产业界人工智能领域应用服务不断落地,学术界对于AI分支科学的研究也愈加深入。NLP,即自然语言处理,在信息时代向智能时代的过渡中发挥着极其重要的作用。由此衍生出的一门高度交叉的新兴学科,计算机语言学,也正在进行着突飞猛进的发展。自然语言处理是计算机翻译的过程,涉及数据挖掘、知识图谱、机器学习及与语言计算相关的语言学等研究。中文自然语言处理是以转换自然语言为基本原则,遵循基于规则、基于统计等研究思路,并且适当添加一些可靠的实例来完成翻译过程。本文我们将围绕计算机在处理中文自然语言方面的问题来展开分析,通过详细的分析了解一下中文自然语言处理的基本概念,再来研究一下中文自然语言处理的关键问题与步骤。
-
-
-
色差甲;
贡保才让;
才让加
-
-
摘要:
藏文新词在科技、新闻和网络等领域不断出现,对藏文自动分析带来了挑战.本文将使用序列标注方法来识别藏文新词,首先用规则方式将时间词、数词、后接成份嵌入到统计模型中,然后利用统计学习的方法对包括新闻、法律、小说、诗歌、中小学教材和地名等多种题材的共15万藏文句子进行统计建模,最后对3087句(其中包含12348个新词)开放语料进行测试,实验结果表明将规则嵌入到最大熵模型比嵌入到HMM模型中的正确率、召回率、F值分别高1.772、0.3905、1.0912个百分点,对于藏文新词识别最大熵模型优于HMM模型.
-
-
-
LIU HuaiJing;
刘怀璟;
YANG Jian;
杨鉴;
XIONG YanJiao;
熊艳娇;
LIN Xuee;
林雪娥
- 《第十二届全国人机语言通讯学术会议(NCMMSC`2013)》
| 2013年
-
摘要:
泰语是声调语言,也是分析型、孤立型语言,目前有6000多万人口使用,基本词汇多由单音节词构成.作为泰语文语转换(TTS)系统的前端,本文构建一本泰语词典,用前后向最大匹配算法进行泰语分词,再替换成音节信息;针对未匹配到的词语(即未登陆词),设计基于泰语音节拼写规则的处理方法;在皇家泰语转写系统的基础上,提出一个新的适用于TTS的泰语罗马化编码方案,并对泰语文本实现自动编码.实验结果表明,初步分词正确率达到78%,论文提出的泰语罗马化编码方案能更准确地表达泰语语音信息.
-
-
-
Xu Rtm-hua;
徐润华;
Chen Xiao-he;
陈小荷
- 《第十一届全国计算语言学学术会议》
| 2011年
-
摘要:
针对先秦文献在信息处理方面所做的研究还比较匮乏,并且多停留在使用现代汉语信息处理方法来处理古汉语的模式上,缺乏对先秦文献体裁、古汉语语言刚各等特殊之处的有针对性处理。正是在这种背景下,本文以先秦传世文献中篇幅最大的《左传》为研究对象,讨论了一种从先秦文献本身特点出发、充分考虑古汉语信息处理特殊性的《左传》分词新方法,并希望籍此育豁岩整个先秦文献的信息处理研究带来有益的启示和帮助。先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据.本文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法.分词实验的F值达到89.0%,较之baseline有明显提升.该方法无需训练语料,利用注疏文献辅助分词的思想也适合推广到其他先秦文献的自动分词任务中去.
-
-
-
-
-
-