您现在的位置：首页> 研究主题> 自动分词

自动分词

自动分词的相关文献在1986年到2022年内共计295篇，主要集中在自动化技术、计算机技术、汉语、信息与知识传播等领域，其中期刊论文244篇、会议论文39篇、专利文献1351457篇；相关期刊148种，包括情报学报、情报杂志、现代图书情报技术等；相关会议30种，包括第十二届全国人机语言通讯学术会议（NCMMSC`2013）、第14届中国少数民族语言文字信息处理学术研讨会、第四届全国少数民族青年自然语言信息处理学术研讨会等；自动分词的相关文献由461位作者贡献，包括郑家恒、杨宪泽、陈小荷等。

自动分词—发文量

期刊论文>

论文：244篇占比：0.02%

会议论文>

论文：39篇占比：0.00%

专利文献>

论文：1351457篇占比：99.98%

总计：1351740篇

自动分词—发文趋势图

自动分词
-研究学者

郑家恒
杨宪泽
陈小荷
李斌
王成平
吴岩
宋柔
文庭孝
王彩荣
罗智勇
陈顺强
黄德根
于洪志
亢临生
刘挺
刘迁
孙茂松
安见才让
揭春雨
杨尔弘
焦慧
章森
谈文蓉
贾惠波
邱均平
金平艳
魏晓宁
黄昌宁
黄玉基
黄祥喜
乔保军
乔羽
于学金
付海辰
何克抗
侯敏
侯经川
冷鹏
刘亚琛
刘新
刘曼
刘源
刘畅
吕强
姚敏
姚登峰
孙继林
宗成庆
张培颖
张敏

自动分词
-相关主题

自动分词
-相关期刊

自动分词
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2022
(5)
2021
(5)
2020
(1)
2019
(1)
2018
(2)
2017
(4)
2016
(2)
2015
(3)
2014
(4)
2013
(9)
2012
(14)
2011
(11)
2010
(10)
2009
(6)
2008
(11)
2007
(22)
2006
(22)
2005
(15)
2004
(16)
2003
(10)
2002
(12)
2001
(4)
2000
(4)
1999
(4)
1998
(5)
1997
(10)
1995
(4)
1994
(5)
1993
(3)
1992
(6)
1991
(7)
1990
(7)
1989
(5)
1988
(1)
1986
(1)

期刊

收录数据库

作者

郑家恒
(9)
杨宪泽
(7)
陈小荷
(6)
李斌
(5)
王成平
(5)
吴岩
(4)
宋柔
(4)
文庭孝
(4)
王彩荣
(4)
罗智勇
(4)
陈顺强
(4)
黄德根
(4)
于洪志
(3)
亢临生
(3)
刘挺
(3)
刘迁
(3)
孙茂松
(3)
安见才让
(3)
揭春雨
(3)
杨尔弘
(3)
焦慧
(3)
章森
(3)
谈文蓉
(3)
贾惠波
(3)
邱均平
(3)
金平艳
(3)
魏晓宁
(3)
黄昌宁
(3)
黄玉基
(3)
黄祥喜
(3)
乔保军
(2)
乔羽
(2)
于学金
(2)
付海辰
(2)
何克抗
(2)
侯敏
(2)
侯经川
(2)
冷鹏
(2)
刘亚琛
(2)
刘新
(2)
刘曼
(2)
刘源
(2)
刘畅
(2)
吕强
(2)
姚敏
(2)
姚登峰
(2)
孙继林
(2)
宗成庆
(2)
张培颖
(2)
张敏
(2)

关键词

申请/权力人

;

1. 基于数据挖掘的网络检索自动分词系统设计
- 陈志锋
- 摘要：传统网络检索自动分词系统存在检索速度慢、分词准确率和召回率低等问题,为解决上述问题,设计基于数据挖掘的网络检索自动分词系统。首先,依据网络检索自动分词器的工作原理对网络检索词汇进行分类;其次,基于数据挖掘技术挖掘词汇数据库中的网络检索词汇数据,利用分词主题来查询网络检索主题,将搜索后的网络检索结果与主题相匹配,以完成网络检索词汇的分词处理;最后,根据词频数据总和与阈值的关系,改进网络检索自动分词算法。实验结果表明:所设计系统对人民日报BCC语料网络检索词汇的自动分词准确率为94.33%,召回率为91.87%,F值为90.29%,且系统的平均分词速度达到了127 kb/s。
2. 面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例
- 刘畅；王东波；胡昊天；张逸勤；李斌
- 摘要：数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
3. 公共资源电子交易大数据平台建设及典型应用
- 黄建新
- 摘要：为了对公共资源电子交易平台运行过程中产生的大规模结构化或非结构化的电子数据进行分析和利用,充分挖掘公共资源交易数据的价值,并提升电子交易水平和监管能力,本文设计了一种大数据平台的建设和应用方法,通过建立分层平台架构,集成自动分词、OCR文字识别、音频识别等技术,实现数据自动汇聚的能力;通过建立算法工具箱,实现数据汇聚、数据存储、算法管理、数据驾驶舱等多个子系统,完成公共资源电子交易大数据平台的建设。实践的结果表明,基于本文方法建设的大数据平台在实际的客户业务中部署使用,能够起到良好的应用效果。
4. 古汉语自动分词技术研究现状及进展
- 王进；张义
- 摘要：古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度神经网络模型等自动分词方法研究现状的梳理,指明充分利用深度学习技术是古汉语自动分词的未来发展趋势,并对古汉语自动分词的探索提出了三个方面的展望:扩充古汉语分词语料数据量、构建适应不同文本领域的分词模型、开发一体化模型。
5. “基于深度学习的文本知识组织和挖掘研究”专题序
- 王东波
- 摘要：正所谓工欲善其事必先利其器,深度学习以其模型结构的深度性、特征获取的自动性,在非结构化文本的自动分词、词性标注、组块识别、句法分析、语义标注、分类与聚类、关联知识发现等知识组织与挖掘研究任务上取得了优异的成绩或在一定程度上实现了质的飞跃,从而得到了迅速和广泛的应用和推广。而对于深度学习来说,数据特别精加工的数据是其根本,脱离数据而谈深度学习无异于追求镜中花、水中月,终无所成。
6. 基于BERT预训练模型的古汉语自动分词方法研究
- 高毅
- 摘要：在自然语言的智能处理领域中,相较于现代汉语,古汉语的研究由于可用有效标注资源有限、种类欠缺,使得古汉语自然语言处理技术的发展相对缓慢.针对古汉语的分词任务,文中借助于双向最大匹配法则,通过训练多种古汉语语料库建立适用于古汉语自动分词的BERT模型,并在多种语料库上进行实验分析.与使用一般神经网络的模型相比,文中所提模型具有更优的训练效果.数据实验结果表明,在3种古汉语文献中双向匹配多阶段迭代训练分词方法获得的F1值分别为96.4％、96.4％、95.4％;而一般神经模型所获得的F1值为92.8％、92.8％和90.5％,即文中方法在古汉语的自动切词任务上具有更优的性能表现.
7. 基于改进Trie树的歧义消解方法 CSTPCD
- 陈倩；乐红兵
- 摘要：词典是汉语自动分词的基础,减少交集型歧义可以提高分词的准确率.在基于词典切分中,传统的Trie树每个节点存储一个字符,构建时产生了很多空指针.为了优化词典存储结构,在Trie树的基础上,采用双字Hash机制:把Trie索引树的深度限制为2,词的剩余字符串则按序组成类似"整词二分"的词典正文,并在每组词语的叶子节点上增加词频和词性的属性值,用于后序的交集型歧义识别.加载了搜狗实验室中文互联网语料统计出的15万条高频词,平均大小为60KB的5篇不同领域的测试语料作为测试样本.实验结果表明:相比其他词典而言,双字Hash分词速度得到显著提高,分词的正确率达到93.1％,基本可以满足实用型中文信息处理系统的需要.
- 词典
- 自动分词
- 歧义切分
- Trie树
- 双字Hash存储
- 词频
- 词性
8. 基于中文NLP的计算机语言学关键问题的研究
- 庞宇
- 摘要：近几年,随着产业界人工智能领域应用服务不断落地,学术界对于AI分支科学的研究也愈加深入。NLP,即自然语言处理,在信息时代向智能时代的过渡中发挥着极其重要的作用。由此衍生出的一门高度交叉的新兴学科,计算机语言学,也正在进行着突飞猛进的发展。自然语言处理是计算机翻译的过程,涉及数据挖掘、知识图谱、机器学习及与语言计算相关的语言学等研究。中文自然语言处理是以转换自然语言为基本原则,遵循基于规则、基于统计等研究思路,并且适当添加一些可靠的实例来完成翻译过程。本文我们将围绕计算机在处理中文自然语言方面的问题来展开分析,通过详细的分析了解一下中文自然语言处理的基本概念,再来研究一下中文自然语言处理的关键问题与步骤。
9. 汉语自动分词研究评述
- 王宇
- 摘要：汉语自动分词是计算机中文信息处理中的难题,文章通过对现有自动分词方法研究进行了分析.
10. 基于最大熵和HMM的藏文新词识别对比研究A comparative study of Tibetan new words recognition based on maximum entropy and HMM
- 色差甲；贡保才让；才让加
- 摘要：藏文新词在科技、新闻和网络等领域不断出现,对藏文自动分析带来了挑战.本文将使用序列标注方法来识别藏文新词,首先用规则方式将时间词、数词、后接成份嵌入到统计模型中,然后利用统计学习的方法对包括新闻、法律、小说、诗歌、中小学教材和地名等多种题材的共15万藏文句子进行统计建模,最后对3087句(其中包含12348个新词)开放语料进行测试,实验结果表明将规则嵌入到最大熵模型比嵌入到HMM模型中的正确率、召回率、F值分别高1.772、0.3905、1.0912个百分点,对于藏文新词识别最大熵模型优于HMM模型.

1. 基于自动分词的新闻文本处理方法
- 东华理工大学南昌校区
- 公开公告日期：2022.02.08
- 摘要：本发明公开了一种基于自动分词的新闻文本处理方法。该方法首先生成词组数据库。接着提取时事文本、领域标签、新闻文本，对比时事文本与基础词组，确定该时事文本的多个有源词组以及无源词组。然后检索新闻文本中与有源词组和无源词组相同的待处理字符串，生成第一字符串和第二字符串以及中间文本。再对比中间文本与基础词组，确定第三字符串以及第四字符串，最后拼接第一、二、三、四字符串完成对新闻文本的分词处理。本方法通过对新闻文本的分词为文本语义识别提供技术基础。也有利于挖掘新闻的价值，能够更加精准的定位搜索。
2. 一种古汉语自动分词及词性标注一体化方法及装置
- 北京科技大学
- 公开公告日期：2021.02.12
- 摘要：本发明提供一种古汉语自动分词及词性标注一体化方法及装置，能够有效提升古汉语分词及词性标注的正确率。所述方法包括：获取古汉语语料库中的古汉语文本；对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；对得到的二元标签结构进行编码；构建双向长短期记忆神经网络，基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，其中，所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，用于对输入的古汉语文本同时进行分词和标注。本发明适用于机器翻译、信息检索、语义识别领域。
3. 基于自动分词的新闻文本处理方法
- 东华理工大学南昌校区
- 公开公告日期：2021-09-14
- 摘要：本发明公开了一种基于自动分词的新闻文本处理方法。该方法首先生成词组数据库。接着提取时事文本、领域标签、新闻文本，对比时事文本与基础词组，确定该时事文本的多个有源词组以及无源词组。然后检索新闻文本中与有源词组和无源词组相同的待处理字符串，生成第一字符串和第二字符串以及中间文本。再对比中间文本与基础词组，确定第三字符串以及第四字符串，最后拼接第一、二、三、四字符串完成对新闻文本的分词处理。本方法通过对新闻文本的分词为文本语义识别提供技术基础。也有利于挖掘新闻的价值，能够更加精准的定位搜索。
4. 自动分词拼写的文本识别方法及装置、存储介质
- 赵宏福
- 公开公告日期：2021-06-18
- 摘要：本申请公开了一种自动分词拼写的文本识别方法及装置、存储介质，所述方法包括：获取设定类型的文件，对所述文件中的文本进行识别，并确定文本之间的间距，文本之间的行距；根据文本之间的间距，确定出每行文本中是否存在换行；对文本中的词语进行识别，并提取所识别的词语；输出所述词语，并接收针对所述词语的调整，将调整后的词语作为识别的最终词语；接收针对所述最终词语的语音输出参数的设置；根据所述语音输出参数对所述最终词语中的文字进行读音标注，并为读音设置声调；接收读音及声调标注后的文本，根据文本所标注的读音、声调进行语音输出。本申请提升了其应用广泛性以及用户体验。
5. 一种古汉语自动分词及词性标注一体化方法及装置
- 北京科技大学
- 公开公告日期：2019-09-24
- 摘要：本发明提供一种古汉语自动分词及词性标注一体化方法及装置，能够有效提升古汉语分词及词性标注的正确率。所述方法包括：获取古汉语语料库中的古汉语文本；对获取的古汉语文本的标签进行标签转换，得到包含词性标记信息和分词标记信息的二元标签结构；对得到的二元标签结构进行编码；构建双向长短期记忆神经网络，基于编码后得到的二元标签信息，利用获取的古汉语文本对构建的双向长短期记忆神经网络进行训练，得到基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，其中，所述基于双向长短期记忆神经网络的自动分词及词性标注一体化模型，用于对输入的古汉语文本同时进行分词和标注。本发明适用于机器翻译、信息检索、语义识别领域。
6. 一种基于信息论的中文自动分词算法
- 四川用联信息技术有限公司
- 公开公告日期：2017-05-03
- 摘要：一种基于信息论的中文自动分词算法，将待分词句子和已经初始化成功的语料库中的词进行对比匹配，根据概率统计学，将待分词句子拆分为网状结构，利用信息论方法求解网状结构中每条边的权值，权重最大的一条路径，即为待分词句子的分词结果，利用准确率可召回率判定分词效果。本发明中中文预处理的速度较基于分词词典的方法快；较基于分词词典的方法精度更高；较基于统计学方法有更好的准确度；实用性更大，更符合经验值；为后续自然语言处理技术提供了极大的应用价值。
7. 一种新的中文自动分词算法
- 四川用联信息技术有限公司
- 公开公告日期：2017-05-03
- 摘要：一种新的中文自动分词算法，根据《分词词典》找到待分词句子中与词典中匹配的词，依据概率统计学，将待分词句子拆分成网状结构，给网状结构每条边赋予权值，找出权值最大的路径即为待分词句子的分词结果。本发明中文预处理的速度较基于分词词典的方法更快；较基于分词词典的方法精度更高；较基于统计学方法有更好的准确度；为后续自然语言处理技术提供了极大的应用价值。
8. 一种改进的中文自动分词算法
- 四川用联信息技术有限公司
- 公开公告日期：2017-05-03
- 摘要：一种改进的中文自动分词算法，将待分词句子和已经初始化成功的语料库中的词进行对比匹配，根据概率统计学，将待分词句子拆分为网状结构，将网状结构的每条边都赋予一定的权值，其中权值最大的路径便是最终的分词结果，最后将验证分词结果的准确率和召回率。本发明中中文预处理的速度较基于分词词典的方法快；较基于分词词典的方法精度更高；较基于统计学方法有更好的准确度；实用性更大，更符合经验值；为后续自然语言处理技术提供了极大的应用价值。
9. 智能藏文自动分词系统
- 海南州云藏藏文信息技术有限公司
- 多拉
- 公开公告日期：2017-04-26
- 摘要：本发明提供了智能藏文自动分词系统，包括数据处理服务器、信息录入装置及网络通讯装置，其中信息录入装置若干并通过网络通讯装置与数据处理服务器连接，且各信息录入装置均相互并联，数据处理服务器包括数据采集子服务器、身份认证识别管理子服务器、通讯协议子服务器、数据检索子服务器、字库子服务器、数据处理运算子服务器。本发明一方面可有效的对藏文进行全面持续录入整理，处理且在藏文的处理过程中，可准确根据藏文词义进行分词操作，提高藏文处理及文本自动分析的工作效率和真确度。
10. 利用自动分词提供繁简体拼音标记正确性的系统及其方法
- 无敌科技(西安)有限公司
- 公开公告日期：2014-05-14
- 摘要：本发明涉及一种利用自动分词提供繁简体拼音标记正确性系统及其方法，该系统包含：存储单元，储存分词；拼音数据库，存放分词对应的拼音序列表；拼音接收单元，接收拼音；拼音处理单元，将拼音进行分词处理；产生单元，产生分词序列；分词拼音查询单元，查询分词序列中的每个分词的拼音；标记单元，标记分词序列中的每个分词的拼音，并储存结果；判断单元，判断标记结果是否正确；输出单元，输出标记结果。

自动分词

自动分词—发文量

自动分词—发文趋势图

自动分词-研究学者

自动分词-相关主题

自动分词-相关期刊

自动分词-相关会议

自动分词
-研究学者

自动分词
-相关主题

自动分词
-相关期刊

自动分词
-相关会议