您现在的位置：首页> 研究主题> 分词

分词

分词的相关文献在1977年到2023年内共计1706篇，主要集中在自动化技术、计算机技术、常用外国语、信息与知识传播等领域，其中期刊论文815篇、会议论文16篇、专利文献875篇；相关期刊454种，包括电脑编程技巧与维护、电脑知识与技术、计算机工程等；相关会议15种，包括第五届全国青年计算语言学研讨会(YWCL 2010)、第六届中国信息和通信安全学术会议（CCICS'2009）、第三届学术计算语言学研讨会等；分词的相关文献由3164位作者贡献，包括何径舟、肖求根、詹金波等。

分词—发文量

期刊论文>

论文：815篇占比：47.77%

会议论文>

论文：16篇占比：0.94%

专利文献>

论文：875篇占比：51.29%

总计：1706篇

分词—发文趋势图

分词
-研究学者

何径舟
肖求根
詹金波
郑利群
唐华阳
岳永鹏
余正涛
李秀林
陈家骏
付志宏
姜明
张旻
张民
戴新宇
李斌
李正华
邵玉斌
吴健
周古月
李思
李林琳
白洁
肖朔
邓卓彬
龙华
刘林峰
司罗
吴朝晖
张斌
徐光伟
李翔
汤景凡
王峰
王斌
不公告发明人
严柯
于洪志
亓超
任永超
侯兴林
刘哲
刘志杰
刘晓葳
刘汇丹
刘迎春
包祖贻
史亮
吕强
吴志祥
孙健

分词
-相关主题

分词
-相关期刊

分词
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2023
(1)
2022
(140)
2021
(148)
2020
(23)
2019
(32)
2018
(34)
2017
(23)
2016
(27)
2015
(37)
2014
(28)
2013
(40)
2012
(64)
2011
(49)
2010
(53)
2009
(55)
2008
(37)
2007
(47)
2006
(28)
2005
(28)
2004
(23)
2003
(22)
2002
(24)
2001
(17)
2000
(13)
1999
(10)
1998
(6)
1997
(5)
1996
(7)
1995
(9)
1994
(1)
1993
(6)
1992
(9)
1991
(4)
1990
(5)
1989
(5)
1988
(4)
1987
(1)
1986
(3)
1985
(3)
1984
(4)
1983
(2)
1981
(2)
1980
(3)
1977
(1)

期刊

收录数据库

作者

何径舟
(19)
肖求根
(13)
詹金波
(13)
郑利群
(13)
唐华阳
(9)
岳永鹏
(9)
余正涛
(8)
李秀林
(8)
陈家骏
(8)
付志宏
(7)
姜明
(7)
张旻
(7)
张民
(7)
戴新宇
(7)
李斌
(7)
李正华
(7)
邵玉斌
(7)
吴健
(6)
周古月
(6)
李思
(6)
李林琳
(6)
白洁
(6)
肖朔
(6)
邓卓彬
(6)
龙华
(6)
刘林峰
(5)
司罗
(5)
吴朝晖
(5)
张斌
(5)
徐光伟
(5)
李翔
(5)
汤景凡
(5)
王峰
(5)
王斌
(5)
不公告发明人
(4)
严柯
(4)
于洪志
(4)
亓超
(4)
任永超
(4)
侯兴林
(4)
刘哲
(4)
刘志杰
(4)
刘晓葳
(4)
刘汇丹
(4)
刘迎春
(4)
包祖贻
(4)
史亮
(4)
吕强
(4)
吴志祥
(4)
孙健
(4)

关键词

英语
(58)
不定式
(50)
动词
(44)
形容词
(42)
用法
(42)
名词
(36)
逻辑主语
(33)
动名词
(32)
词性标注
(26)
语法
(25)
搜索引擎
(24)
自然语言处理
(23)
非谓语动词
(23)
中文信息处理
(22)
文本分类
(20)
汉语
(20)
状语
(20)
副词
(19)
句子
(18)
索引
(17)
全文检索
(16)
动词不定式
(16)
语料库
(16)
高考
(16)
介词短语
(15)
介词
(14)
条件随机场
(13)
考点
(13)
高中
(13)
向量空间模型
(12)
定语
(12)
词典
(12)
Lucene
(11)
数据挖掘
(11)
独立主格结构
(11)
语法功能
(11)
最大匹配
(10)
藏文
(10)
机器翻译
(9)
短语
(9)
自然语言
(9)
高考题
(9)
be
(8)
主语
(8)
分类
(8)
动作
(8)
机器学习
(8)
检索
(8)
特征选择
(8)
状语从句
(8)

申请/权力人

;

1. 基于成人学习者在线文本数据的挖掘和情感分析
- 张黎娜；张月蓉；童敏
- 摘要：通过采集成人学习者在线聊天文本数据,利用python中的jieba分词对在线聊天记录文本进行中文分词,得到分词结果、生成词频表,实现高频词可视化;采用朴素贝叶斯分类器进行文本情感倾向分析,并生成正面、负面、中立三个情感文本文档;以LDA主题模型对情感文本进行主题聚类,得到的正面、负面、中立的主题情感词。情感词分析结果显示,聊天文本多为正常积极的情感交流。针对负面情感集中的问题原因,分别从平台操作、系统使用等方面提出了整改建议。
2. 基于情感词典的旅游景点推荐算法
- 马子睿
- 摘要：随着智慧旅游的不断发展,以客户体验作为游客出行的重要标准,针对游客发表的旅游景点评论文本,研究了基于情感词典的旅游推荐算法,对景点评论文本进行预处理、文本分词、词云展示,对积极评论和消极评论进行分类后计算分值,并对情感分值求和,将景点分值较高的评论推荐给客户,使得游客精准掌握旅游产品信息。
3. 基于出土文献数据库的集外字数字化处理方法研究
- 唐杰；刘铭；陈镱文
- 摘要：相比较现代汉语和传世文献数据库而言,出土文献数据库中的集外字占比较大。因此在利用数字人文手段对出土文献文本处理时,集外字在数据库中的存在形式及参与方式将直接影响信息处理。参考藏文、甲骨文、西夏文的数字化文本的处理方式,提出一种适应于出土文献集外字在文本信息处理中的程序化方法。该方法不仅提高了出土文献数据库中的数据完整性,也可使得以往不能被用于文本信息处理的集外字参与至自然语言信息处理技术中。利用目前主流的分词工具jieba进行试验,结果显示该方法在出土文献的文本信息处理中是有效的。
4. 基于文本挖掘的客户投诉工单处理系统设计与应用
- 王腾；袁萍；王璞；孔令琪；陈新民
- 摘要：利用人工智能对客户投诉工单中的非结构化数据进行文本挖掘和机器学习是客户投诉工单处理系统建设的关键技术。本文论述了系统建设中热词采集、投诉分类与打标、投诉热点分析、预警与派单等关键流程与功能,着重论述了利用文本挖掘技术进行建模与优化。
5. 基于外部知识的中文文本检错
- 段建勇；李杰东；王昊
- 摘要：中文文本检错是一项重要任务,在众多应用场景中都需要对各种场景转化而来的文本进行检错以便后续模型的运用。采用人工方式进行文本检错费时费力、效率低。研究者提出了自动检错的方法,但目前的研究多集中在以语义为基础进行检错,缺少对外部知识的引用。本文针对现有检错方法的不足,结合中文文本语句的特点,将输入的中文字符结合其拆字知识,同时将中文的分词结果结合其更小粒度的义原外部知识。
- 中文文本
- 中文字符
- 人工方式
- 义原
- 分词
- 检错
- 外部知识
- 应用场景
6. 基于文本挖掘的文献服务平台的探究与实践
- 马超燕
- 摘要：在“互联网+”和“双创”(即创新创业)形势下,电子文献馆也亟需从现在单一的文献服务向知识服务转型。文章主要研究探讨基于python的文本挖掘和分析技术,依托广西科技文献共享与服务平台采用各种算法分析用户特征数据,研究解决电子文献服务过程中用户的交互和个性化问题,引导和促进科研人员之间的知识交流及对前沿科学的探索。
- 文献
- Python
- 数据挖掘
- jieba
- 分词
7. 基于SentencePiece的中医学分词模型建模研究
- 刘双巧；李宇航；周璐；李彩艳；袁慧敏；张异卓；李昱达；刘锦钢；郑丰杰；孙燕
- 摘要：目的:探索构建适用于中医学领域的分词模型.方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试.结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83.结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考.
8. 面向多领域先秦典籍的分词词性一体化自动标注模型构建
- 张琪；江川；纪有书；冯敏萱；李斌；许超；刘浏
- 摘要： [目的]探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型.[方法]采用涵盖“经史子集”的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型.最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析.[结果]在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98％,词性标注准确率达到88.97％.在《史记》上的应用进一步证明了模型的稳定性和实用性.[局限]通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决.[结论]将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍.
9. 网络爬虫和案例推理技术在煤矿智能应急预案系统中的研究及应用
- 林麟
- 摘要：目前大多数应急预案系统中事故案例库的案例通常通过人工从网站和书籍中收集而来,不仅工作量大,效率低下,而且获取之后通常是一个案例文本,没有实现自动结构化存储,无法高效的为预案编制提供参考,更不能对救援起到辅助决策支持的作用.针对存在的问题,本系统通过采用网络爬虫技术获取到大量事故案例并通过人工智能中分词技术处理之后进行自动结构化存储;在案例推理中引入KN N算法提高案例推理的案例检索能力,推荐和突发事故相似的事故案例;通过数据收集、数据清洗、结构化存储、数据挖掘和可视化展示,并根据矿区现场情况和事故样本,结合煤矿自身的预案范本生成指导性应急预案蓝本,提高应急预案系统智能化编制应急预案水平.
10. 基于共有文本特征词跨类联合分类的电力文本分类算法研究
- 王琼；杨波；陈佐虎
- 摘要：随着数字化企业建设,电力公司文本数据以指数级增长,电力文本具有电力专业性、文本形式多样性、文本分类不均性等特点。针对分类数据标准和语料库缺乏、自动化程度低等问题,本文提出了少量样本情况下类间共有文本特征词跨类联合分类算法,能够实现少干预情况下的自动快速构建封闭语料库并且实现电力文本自动分类。分别选取5%、10%、15%、20%平均值进行实验,证明了在10%平均值时最少分类特征词可以取得更好的效果。

1. 汉、蒙、藏、维分词与词性标注技术发展现状研究
- 通拉嘎
- 《第五届全国青年计算语言学研讨会(YWCL 2010)》 | 2010年
- 摘要：中文信息处理用各种统计方法实现精度的提高，而规则的运用更多是在歧义和未登录词的研究上。蒙古语的统计方法发轫于近几年，但更多的是一种理念的进步，仍是以词干加附加成分的规则方法为主，现有AYIMAG和DARHAN切分和词性标注系统。藏文较多运用规则加统计的方法，也有直接运用viterbi算法进行分词的成果，其基于规则的方法是用格助词和词典库进行分词;现有北大计算语言学研究所和国家语言资源监测与研究中心少数民族语言分中心的藏文自动分词系统，不过还未见藏文词性标注系统的实现成果。维吾尔语有基于隐马尔科夫模型的viterbi算法与基于n-gram模型的尝试，其规则方法仍足词干加附加成分的切分理念，现还未见可用的切分与标注系统。
2. 基于机器学习的分词不一致自动识别研究
- 卢俊之
- 《第三届学术计算语言学研讨会》 | 2006年
- 摘要：分词不一致的处理是建设一个高质量的语料库所无法回避的问题,识别出分词不一致的不同成因是处理的前提和关键.本文提出了一种基于机器学习的分词不一致自动识别方案,通过两遍识别,以特征词法识别结果为基础,让机器从中学习到规则后辅以人工规则再处理第一遍未识别的不一致字串.我们对200万字语料库中的分词不一致字串进行了实验,封闭测试与开放测试的正确率分别达到85.22％和83.13％.
3. 基于规则的中文语料库分词一致性处理研究
- 苗玺；郑家恒
- 《第十一届中国人工智能学术年会》 | 2005年
- 摘要：建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一.本文对150万汉字熟语料进行了统计分析;定义了语料库中分词结果不一致的主要结构类型;采用基于规则的策略检验校对相同语境下相同字串的分词一致性.对150万汉字语料库的封闭测试,正确率为86.94％.
4. 基于三元统计模型的汉语分词及标注一体化研究
- 高山；张艳；徐波；宗成庆；韩兆兵
- 《全国第六届计算语言学联合学术会议》 | 2001年
- 摘要：汉语的分词及词性标注是汉语语言处理的基础.虽然,该领域在过去十年已经有了很大进展,但高精度的面向大规模真实文本的分词及标注仍然存在许多困难.本文提出一种基于三元统计模型的汉语分词标注的方法,旨在并行考虑词性及词汇的三元概率模型,兼顾词及词性之间的搭配,实现分词和78类二级词性标注的整体最优,实验结果显示该方法获得很高的正确率.
5. 基于问题模式匹配的智能答疑系统原型
- 冼健；莫玄朗；奚建清
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
- 摘要：智能答疑系统是将学生的问题和老师的解答有机地组织起来并存放至相应的答题库中,通过自然语言的语义理解技术来分析并自动的匹配学生所提出的问题,自动地给予问题解答的系统.智能答疑系统能够给予提问者即时的回应,减轻教学人员的工作压力,在远程教学中具有重要意义.红棉智能答疑系统(原型系统)针对国内现有的智能答疑系统普遍存在的问题,借鉴了国外先进智能答疑系统的成功经验与设计理念,根据中文智能答疑的特殊需求,引入了基于概率的双向最大匹配分词算法、智能问题模式匹配、基于语义依存树的语义分析等技术进行智能问题分析,形成了具有更高答案召回率、合理性与正确性的新一代智能答疑系统.
6. 分词系统计量研究与改进方案
- 曲维光
- 《第二届全国学生计算语言学研讨会》 | 2004年
- 摘要：本文利用中科院计算所ICTCLAS系统对《人民日报》1998年1月语料进行标注,并与北京大学免费发布的《人民日报》1998年1月标注语料进行比对分析,找出ICTCLAS系统存在的一些缺陷,提出进一步提高标注效果的方法.
7. HNC理论下对具有模糊的词和新词小议
- 孙雄勇
- 《第二届HNC与语言学研讨会》 | 2003年
- 摘要： HNC的句类分析处理句子的基本策略是："中间切入,先上后下"。概括为三个环节：语义块感知,句类假设检验,语义块构成分析。HNC的分词处理则贯穿在这三个环节当中。本文分别从伪词和新词两方面介绍HNC的处理方法。对伪词的分析本文从三个方面来进行了讨论,对于新词,本文从以下的四个方面进行了介绍。介绍了HNC理论下对于解决分词以及新词的优势。
- 分词
- 句类分析
- 新词
- HNC
8. 一种基于Bi-gram和HMM的中文未登录词辨识方法
- 朱静；李建华；陆松年
- 《第六届中国信息和通信安全学术会议（CCICS'2009）》 | 2009年
- 摘要：未登录词自动辨识是中文文本切分中的基础问题。在对大语料进行统计分析的基础上，提出了一种数据驱动的通用辨识方法。该方法利用Bi-gram来刻划单字词之间的共现信息，引入HMM(隐Markov模型)来计算汉字的单字成词能力和在未登录词中成词的概率分布，并将未登录词的辨识转换成网格中的路径寻优问题。为此基于动态规划设计了一种有效的搜索算法。试验结果显示该方法可获得91%以上的精度和90%以上的召回率，具有较强的推广能力。
9. 一种基于Bi-gram和HMM的中文未登录词辨识方法
- 朱静；李建华；陆松年
- 《第六届中国信息和通信安全学术会议（CCICS'2009）》 | 2009年
- 摘要：未登录词自动辨识是中文文本切分中的基础问题。在对大语料进行统计分析的基础上，提出了一种数据驱动的通用辨识方法。该方法利用Bi-gram来刻划单字词之间的共现信息，引入HMM(隐Markov模型)来计算汉字的单字成词能力和在未登录词中成词的概率分布，并将未登录词的辨识转换成网格中的路径寻优问题。为此基于动态规划设计了一种有效的搜索算法。试验结果显示该方法可获得91%以上的精度和90%以上的召回率，具有较强的推广能力。
10. 一种基于Bi-gram和HMM的中文未登录词辨识方法
- 朱静；李建华；陆松年
- 《第六届中国信息和通信安全学术会议（CCICS'2009）》 | 2009年
- 摘要：未登录词自动辨识是中文文本切分中的基础问题。在对大语料进行统计分析的基础上，提出了一种数据驱动的通用辨识方法。该方法利用Bi-gram来刻划单字词之间的共现信息，引入HMM(隐Markov模型)来计算汉字的单字成词能力和在未登录词中成词的概率分布，并将未登录词的辨识转换成网格中的路径寻优问题。为此基于动态规划设计了一种有效的搜索算法。试验结果显示该方法可获得91%以上的精度和90%以上的召回率，具有较强的推广能力。

1. 分词方法和装置、用于分词的装置
- 北京搜狗科技发展有限公司
- 公开公告日期：2022.01.18
- 摘要：本发明实施例提供了一种分词方法和装置、以及一种用于分词的装置，其中的方法具体包括：获取待分词文本对应的分词序列；从所述分词序列中获取未存在于预置词典中的目标词汇；所述预置词典用于存储词汇；依据所述预置词典对所述目标词汇进行切分处理，以得到对应的切分结果。本发明实施例能够将机器翻译装置无法翻译的词汇切开，因此能够提高分词结果的准确率，进而提高翻译结果的准确率。
2. 一种基于分词工具共性信息和部分监督学习的分词方法
- 杭州电子科技大学
- 公开公告日期：2022.03.08
- 摘要：本发明公开了一种基于分词工具共性信息和部分监督学习的分词方法。本发明步骤如下：(1)使用大量无标注数据和BiLSTM神经网络预训练一个具有多种分词工具共性信息的BiLSTM模块，获得训练好的BiLSTM神经网络模块；(2)使用少量标注数据训练初始分词模型，得到基于卷积神经网络和多种分词工具共性信息的初始分词模型M0。(3)利用M0对大量无标注数据集进行标注，得到大量伪标签数据。修改M0中的损失函数，利用少量标注数据和大量伪标签数据共同训练损失函数修改后的M0，得到基于多种分词工具共性信息和部分监督学习的中文分词模型M1。(4)迭代步骤(3)n次,得到最终分词模型Mn。本发明提高跨领域中文分词的准确率。
3. 中文分词系统及中文文本的分词方法
- 鼎富智能科技有限公司
- 公开公告日期：2022.09.30
- 摘要：本发明实施例公开一种中文分词系统及分词方法，该分词系统包括：分词算法单元，用于为用户提供至少两种中文分词系统所支持的分词算法；分词模型单元，用于为用户提供至少两种中文分词系统所支持的第一分词模型；处理单元，用于确定用户从分词算法单元中选择的分词算法和从分词模型单元中选择的第一分词模型的类型是否对应；在对应的情况下，利用用户选择的分词算法以及第一分词模型对中文文本进行分词；在不对应的情况下，利用用户选择的分词算法以及类型与分词算法具有对应关系的第一分词模型，对中文文本进行分词。该中文分词系统降低了使用和调优门槛，便于用户调整分词流程，适应不同应用场景下的分词需求。
4. 深度学习模型训练方法、分词方法、训练系统和分词系统
- 北京京东尚科信息技术有限公司
- 北京京东世纪贸易有限公司
- 公开公告日期：2022.03.04
- 摘要：本发明提供了一种深度学习模型训练方法，所述训练方法使用自然语言的训练语料对深度学习模型进行训练，所述深度学习模型用于对自然语言的语段进行分词，所述训练方法包括：将所述训练语料的语段中的字转换为字向量，同一个字在属于不同类别的词时被转换为不同的字向量；以及使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型。本发明还提供了一种使用所述深度学习模型对自然语言的语段进行分词的分词方法，包括：以与所述训练方法中相同的转换方式，将所述语段中的字转换为字向量，同一个字在属于不同类别的词时被转换为不同的字向量；以及使用字向量作为所述深度学习模型的输入，对所述语段进行分词。
5. 一种分词方法、多模式分词模型和系统
- 支付宝(杭州)信息技术有限公司
- 公开公告日期：2021.03.23
- 摘要：本说明书实施例公开了一种分词方法、多模式分词模型和系统。该方法包括：获取待处理文本；利用多模式分词模型对所述待处理文本进行以下处理，以确定对所述待处理文本的分词结果：通过特征提取层处理所述待处理文本，获得对应于所述待处理文本的特征序列；基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征；通过预测层基于所述至少一个映射特征确定对所述待处理文本的所述分词结果。
6. 一种分词处理方法及系统、分词搜索方法
- 成都数联铭品科技有限公司
- 公开公告日期：2021.02.19
- 摘要：本发明涉及一种分词处理方法及系统、分词搜索方法，包括以下步骤：对关键词库中的关键词进行分词处理，并输入分词库；按照标记字段对分词库中的分词进行扫描，从扫描的分词中提取部分发送至消息队列；所述分词库中的分词被赋予标记字段，并形成了更新状态；将消息队列中的分词发送至业务端进行搜索，得到状态结果，并将状态结果返回分词库，以更新分词的更新状态，同时更新对应关键词的更新状态。本发明可以在关键词的基础上进行模糊搜索，对分词的处理、搜索方法形成分词的闭环更新，实现在大数据搜索领域对分词的完全管理和跟踪，避免搜索遗漏和反复搜索，提高了数据资源的利用效率，减少服务器运作负载，节省成本，提高了经济效益。
7. 一种中文文本分词的方法、装置、分词设备及存储介质
- 天闻数媒科技(北京)有限公司
- 公开公告日期：2021.05.28
- 摘要：本发明实施例公开了一种中文文本分词的方法、装置、分词设备及存储介质，所述方法包括：获取待切分文本；根据预设字串最大长度、预设模型以及预设词典为所述待切分文本确定最优切分路径；其中，所述最优切分路径为以预设切分方式切分所述待切分文本，得到的所有字串的成词概率乘积数值最高的切分路径；通过所述最优切分路径对所述待切分文本进行切分，作为所述待切分文本的分词结果，实现在保证分词精度的前提下，降低算法的复杂度，提高算法分词的速度和效率。
8. 一种医学领域的中文分词方法及中文分词器
- 昆明理工大学
- 公开公告日期：2022-02-25
- 摘要：本申请是关于一种医学领域的中文分词方法，该方法对基于双向长短期记忆网络Bi‑LSTM分词模型进行改进得到的，可以提升分词效果，以达到预期的分词效果。该中文分词方法，包括：利用预先标注的中文医学语料作为训练集输入基于双向长短期记忆网络的分词模型中进行训练，得到医学领域中文分词模型；将待分词文本输入医学领域中文分词模型中进行标签概率预测，得到第一概率预测结果，其中待分词文本为中文医学领域的文本句；将待分词文本输入通用中文分词模型中进行标签概率预测，得到第二概率预测结果，其中通用中文分词模型也是基于双向长短期记忆网络的分词模型设计得到；根据第一概率预测结果和第二概率预测结果确定待分词文本的分词结果。
9. 一种分词方法、多模式分词模型和系统
- 支付宝(杭州)信息技术有限公司
- 公开公告日期：2021-01-08
- 摘要：本说明书实施例公开了一种分词方法、多模式分词模型和系统。该方法包括：获取待处理文本；利用多模式分词模型对所述待处理文本进行以下处理，以确定对所述待处理文本的分词结果：通过特征提取层处理所述待处理文本，获得对应于所述待处理文本的特征序列；基于所述待处理文本所属的领域类型，通过对应所述领域类型的至少一个映射层处理所述特征序列，获得至少一个映射特征；通过预测层基于所述至少一个映射特征确定对所述待处理文本的所述分词结果。
10. 一种分词方法、系统、分词器生成方法及系统
- 深圳前瞻资讯股份有限公司
- 公开公告日期：2021-04-27
- 摘要：本申请涉及一种分词方法、系统、分词器生成方法及系统，属于数据处理技术的领域，分词方法其包括获取待测目标文本；得到一个及一个以上的词项及每个词项的词频，并得到包含所有所述词项的初分词方案；得到单字词项和/或超低频词项，或将初分词方案中的词项一起作为最终分词结果；对超低频词项和单字词项进行处理得到特定词和再分词方案；得到初分词方案和每个再分词方案的词频值；得到最优分词方案，将最优分词方案中的结果词和初分词方案中未合并的词项一起作为最终分词结果。与相关技术相比，本申请具有改善专用领域文本搜索准确性较低的问题的效果。

分词

分词—发文量

分词—发文趋势图

分词-研究学者

分词-相关主题

分词-相关期刊

分词-相关会议

分词
-研究学者

分词
-相关主题

分词
-相关期刊

分词
-相关会议