汉语自动分词
汉语自动分词的相关文献在1984年到2021年内共计82篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文72篇、会议论文8篇、专利文献1354090篇;相关期刊47种,包括情报理论与实践、情报杂志、现代图书情报技术等;
相关会议8种,包括全国第八届计算语言学联合学术会议、第三届HNC与语言学研究学术研讨会、第一届全国信息检索与内容安全学术会议等;汉语自动分词的相关文献由135位作者贡献,包括孙茂松、冯素琴、陈惠明等。
汉语自动分词—发文量
专利文献>
论文:1354090篇
占比:99.99%
总计:1354170篇
汉语自动分词
-研究学者
- 孙茂松
- 冯素琴
- 陈惠明
- 黄德根
- 尹锋
- 杨元生
- 邹嘉彦
- 高红
- 于学金
- 包塔
- 庄丽
- 朱小燕
- 杨超
- 林亚平
- 熊回香
- 王喜凤
- 王广正
- 皇甫伟
- 蒋斌
- 陈斌
- 骆正清
- 黄昌宁
- 黄祥喜
- 乔维
- 于浩
- 任燕
- 何克抗
- 侯敏
- 傅向华
- 党荣
- 刘少辉
- 刘建毅
- 刘楚达
- 刘源
- 刘芳
- 刘迁
- 刘龙飞
- 初田天
- 史忠植
- 叶世伟
- 叶立
- 吕雅娟
- 吴东峥
- 周昌乐
- 周经野
- 夏立新
- 孙巍
- 孙晓
- 孙波
- 孙海涛
-
-
-
王希杰;
赵晓凡
-
-
摘要:
This paper presents methods of mechanical matching, feature lexicon, Binding matrix, grammar analysis and semantic understanding for the Chinese language automatic word segmentation. It is pointed out that we must study deeply the morphology, grammar, semantics and even pragmatics and chapter understanding of Chinese as well as it's formal theory before we can solve satisfactorily the problem of the Chinese language automatic word segmentation.%汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析.在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论.
-
-
赵伟;
张学;
安诚
-
-
摘要:
本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。
-
-
王志强;
任燕;
郭宁;
傅向华
-
-
摘要:
本文利用本体丰富的语义知识和语法结构及其共享性,构建了电子商务领域的本体知识库,用于解决数据的结构异构和语义异构问题.同时开发了面向电子商务领域本体知识库的汉语自动分词系统.结果表明,引入本体知识库能在一定程度上提高词语切分的正确率.
-
-
-
-
-
吴东峥
-
-
摘要:
汉语自动分词在面向大规模真实文本时,仍然存在很多困难.本文在传统的语料库方法的基础上,提出一种基于开放性语料库的汉语自动分词方法.建立开放性语料库,并引入开放式知识库学习和评价机制.实验结果表明,开放机制的引入能有效提高汉语自动分词的精确率.
-
-
江耿豪
-
-
摘要:
设计并实现了一个基于FAQ的自动答疑系统.阐述了自动答疑过程的主要环节和基本流程,介绍了系统实现的关键技术,包括改进的汉语自动分词算法、问句关键词的提取与同义词变换、疑问词分类与知识点分类相结合的问题分类法、根据用户问题建立候选问题集和问句相似度计算等.实验表明,答疑系统对用户问题的回答具有较高的准确率.
-
-
王广正;
王喜凤
-
-
摘要:
词性标注作为汉语自动分词以至中文信息处理领域比较关键的问题之一,是该领域的研究难点也是研究重点,对兼类词词性标注的正确率严重影响着词性标注的质量.在基于规则的词性标注的基础上,提出了一种基于规则优先级的词性标注方法,即对每条词性标注规则加上优先级,并在标注算法中通过对优先级进行控制来完成兼类词的词性标注.并用大规模语料对该方法做了试验,结果表明其词性标注正确率可达到96.4%.
-
-
侯敏;
陈琼璜;
初田天;
李湛;
王瑜;
叶立
- 《全国第八届计算语言学联合学术会议》
| 2005年
-
摘要:
上下文相关歧义字段(CSAS)的处理是汉语自动分词中的难题之一.本文对收集到的CSAS逐个进行了研究,提出了"人脑认定+语料库验证"的提取方法以及基本词表、校正词表和规则库互动的处理手段,其中不相邻条件匹配的越过规则可解决统计方法难以解决的问题.测试结果表明,该方法是有效的.
-
-
杨超;
李仁发;
蒋斌
- 《第一届全国信息检索与内容安全学术会议》
| 2004年
-
摘要:
词典是汉语自动分词的基础,分词词典机制的优劣直接影响到汉语自动分词的速度和效率.本文简要分析了汉语自动分词的三种主要算法,指明了分词词典机制在自动中分词中的重要性,然后深入研究和比较了已有的几种典型分词词典机制,总结了各词典机制的优缺点.在此基础上,根据汉语中二字词较多的特点,提出了一种新的分词词典机制,该机制在词典数据结构中添加二字词检测位图表,在分词时,该位图表可快速判断二字词来优化分词速度.文章还给出了在正向最大匹配分词算法中应用该方法实现自动分词的算法分析,并选取人民日报语料片断进行了实验测试.实验结果表明,该分词词典机制有效地提高了汉语自动分词的速度和效率.
-
-
-
-
庄丽;
包塔;
朱小燕
- 《第七届全国人机语音通讯学术会议》
| 2003年
-
摘要:
本文介绍了智能技术与系统国家重点实验室开发的"北极光"盲人用计算机软件系统中涉及的语音和语言处理技术.该系统能够获取和分析需要反馈的屏幕信息,通过语音合成平台将其内容朗读出来,对用户进行语音提示:与汉语自动分词、语言模型等自然语言处理技术的结合,使系统能够进行汉字和盲文的转换,反馈信息可以通过盲文点显器输出,使用户能够摸读盲文点字来获取所需要的信息,用户也可以采用盲文输入法进行输入,输入结果可转换为汉字文本形式.
-
-
曲维光
- 《2002年全国理论计算机科学学术年会》
| 2002年
-
摘要:
本文通过对人工智能方法的讨论,分析了基于专家系统方法和基于人工神经网络各自存在的问题,提出利用知识发现、文本挖掘技术来解决专家系统知识获取的困难;利用深层次语言特征作为人工神经网络的输入,以及结合专家系统知识组织能力和神经网络的非线性和自学习能力来协同完成分词问题.
-
-
-
-