汉语分词
汉语分词的相关文献在1988年到2022年内共计118篇,主要集中在自动化技术、计算机技术、汉语、科学、科学研究
等领域,其中期刊论文96篇、会议论文15篇、专利文献3653篇;相关期刊67种,包括情报学报、现代图书情报技术、安阳师范学院学报等;
相关会议13种,包括2011语言逻辑和符号学学术会议、第十一届全国计算语言学学术会议、全国Web信息系统及其应用学术会议、全国语义Web与本体论学术研讨会暨全国电子政务技术与应用学术研讨会等;汉语分词的相关文献由220位作者贡献,包括王希杰、于江德、樊孝忠等。
汉语分词
-研究学者
- 王希杰
- 于江德
- 樊孝忠
- 王晓龙
- 高东平
- 付国宏
- 刘群
- 张玉洁
- 徐金安
- 文庭孝
- 李双龙
- 赵铁军
- 陈肇雄
- 陈鄞
- 何利益
- 何嘉
- 吕荣波
- 尹锋
- 应志伟
- 张孝飞
- 徐冰
- 揭春雨
- 李帅
- 李淼
- 杨沐昀
- 王成耀
- 罗鹏
- 葛昱晖
- 邱均平
- 陆国锋
- 陈其晖
- 陈琳
- 陈莉莉
- 黄昌宁
- 黄河燕
- Chen Jia-jun
- F.Z.W.
- Fan Xiao-zhong
- Huang Shu-iian
- Li Bo-yuan
- Wang Xi-jie
- Xi Ning
- Yu Jiang-de
- Zhang Jian-bing
- 丁艳
- 万仲保
- 于传武
- 于浩
- 仝兆岐
- 余希田
-
-
汪凯;
梁宇腾;
张玉洁;
徐金安;
陈钰枫
-
-
摘要:
[目的/意义]汉语分词、词性标注和依存句法分析作为汉语自然语言处理的三大基本任务发挥着至关重要的作用。基于转移的三个任务联合模型曾经取得最好精度,但是随着神经网络和计算能力的发展,具有全局信息建模能力的图模型,在单任务和两个任务上已经超过转移模型。如何在基于图模型下联合三个任务,进一步提升精度成为新的挑战。[方法/过程]本文提出一种基于图的汉语分词、词性标注和依存句法分析的联合模型,通过设计统一的字级别标签实现三个任务的联合,并采用预训练语言模型融合上下文信息的字表示方法和基于双仿射注意力机制的评分函数。本文也设计了联合模型的解法算法用于三个任务的解码。[结果/结论]实验结果表明,本文词性标注任务的引入方式可以建模词性与分词以及词性与依存句法分析之间的关系,从而带来其他两个任务上精度的提升。与目前精度最好的Yan[1]工作相比,在三个任务上都取得最好精度。
-
-
-
-
张若水
-
-
摘要:
汉语自动分词问题可以说是目前中文信息处理中一个老大难的问题了.笔者近日读了文庭孝、侯经川等人合作的一篇论文,题为《汉语自动分词新思维:无词典切分》,对文中所述的某些观点有些不同的看法,故作此文.为方便起见,以下将《汉语自动分词新思维:无词典切分》简称为《新思维》.
-
-
-
孙子杰
-
-
摘要:
步入了大数据时代,可接收到的信息越来越多.面对海量的信息,无论是新闻的阅读者还会新闻网站的工作人员,往往都面对这一个问题——文本分类.人工分类耗时耗力,且工作效率随时间增加而下降,这些缺点无不将这件难题推向计算机来解决.本文选择朴素贝叶斯算法,以多篇新闻为实验训练样本进行实验,结合数据预处理、汉语分词等过程得出一个较完整的数学模型,并对数据平滑技术提出改进,为今后学者的研究提供一个可参考的方案.
-
-
贺慧
-
-
摘要:
蒙古族人名译名的自动识别对汉语自动分词的研究具有重要意义.本文提出了一种在中文文本中自动识别蒙古族人名译名的算法.以蒙古族人名译名用字信息为基础,利用译名首尾字表、称谓词表和指界动词表对候选译名再定界,并针对译名特点采用译名音节串成词的优先策略.实验结果表明,召回率达到97.67%,正确率达到95.26%.
-
-
-
熊文新
-
-
摘要:
Chinese word segmentation is fundamental for Chinese information processing.To a-void ambiguity and out-of-vocabulary word,there was a proposal for adding a manual space between Chinese words,which we disagree with it.This paper first elaborates difficulties in word segmenta-tion from the point of linguistic studies,language performance and language engineering,and then it discusses some uncertain factors in definition of the word,language awareness,word segmentation specification,construction of word list and its application in automatic text information processing. Not dwelling on exact definition of the word,the paper lists recent advances in character-based tag-ging with massive manually annotated recourses,which show an inspiring progress.At the end of the paper,we put forward a word segmentation guideline from a stance of language policy strategies. Guided by linguistic theory and data-driven machine learning algorithms,a practical word segmenta-tion system can achieve better success in precision and adaptability.%汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语“切分单位”的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。
-
-
苏晨;
张玉洁;
郭振;
徐金安
-
-
摘要:
在特定领域的汉英机器翻译系统开发过程中,大量新词的出现导致汉语分词精度下降,而特定领域缺少标注语料使得有监督学习技术的性能难以提高.这直接导致抽取的翻译知识中出现很多错误,严重影响翻译质量.为解决这个问题,该文实现了基于生语料的领域自适应分词模型和双语引导的汉语分词,并提出融合多种分词结果的方法,通过构建格状结构(Lattice)并使用动态规划算法得到最佳汉语分词结果.为了验证所提方法,我们在NTCIR-10的汉英数据集上进行了评价实验.实验结果表明,该文提出的融合多种分词结果的汉语分词方法在分词精度F值和统计机器翻译的BLEU值上均得到了提高.
-
-
高东平
- 《2011语言逻辑和符号学学术会议》
| 2011年
-
摘要:
针对汉语分词中的未登录词识别和歧义消除这两个瓶颈问题和目前方法的不足,将类型论的思想引入到汉语分词领域中,提出了类型匹配模型,以类型论函数贴合为主要算法,融合了全切分、统计,前后缀识别信息等多种技术手段,将分词、未登录词识别、歧义消除,词典的动态扩充有机的融合到一个统一的理论模型当中.在此理论框架的基础上,最后实现了基于类型论的汉语分词系统TTCS.
-
-
-
朱鉴;
张建;
李淼;
强静;
杨攀
- 《第十一届全国民族语言文字信息学术研讨会》
| 2007年
-
摘要:
本文提出了一种有效的汉语分词方法。该方法在计算N元概率时采用统计语言模型中常用的Katz平滑算法,对计算N元概率时所用的最大似然法和加1平滑算法进行了改进,同时采用了将字符串映射到整数的方法设计了N元短语的词典结构,以降低分词系统的空间/时间复杂度。
-
-
李双龙;
北京科技大学;
刘乐中;
刘群
- 《第二届全国信息检索与内容安全学术会议》
| 2005年
-
摘要:
对于一般的分词系统,由于数据稀疏而识别失败的未登录词往往被切分成单字串.这里将切分结果中连续的单字串称之为"单字碎片".本文提出的一种碎片过滤方法的基本思想就是重新检测出单字碎片中识别失败的未登录词,并将此方法作为"后处理"引入到一个原有的基于统计方法的分词系统(ICTCLAS)中.在第一届SIGHAN北大测试语料上测试,新系统未登录词召回率提高了4%,F值比原系统提高了1%.可以看出,利用这种过滤方法在一定程度上削弱了数据稀疏问题,从而提高了汉语分词的性能.
-
-
Yu Jiang-de;
于江德;
Wang Xi-jie;
王希杰;
Fan Xiao-zhong;
樊孝忠
- 《第十一届全国计算语言学学术会议》
| 2011年
-
摘要:
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题.上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础.汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要。为克服仅凭主观经验给出猜测结果的不足,对汉语词法分析的分词、词性标注、命名实体识别这三项子任务进行了深入研究,对比了上文和下文对各个任务性能的影响,在国际汉语语言处理评测Bakeoff多种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,上文和下文对汉语分词和中文命名实体识别性能的影响差别较大,对汉语词性标注的性能影响差别较小.
-
-
-
陈晓;
靳光瑾;
黄昌宁
- 《第九届全国计算语言学学术会议》
| 2007年
-
摘要:
本文采用了目前汉语分词领域中一种优秀的分词方法-基于字的分词方法,通过实验的方式量化地探讨了在这一方法中不同的特征模板对于词表词和未登录词识别所起的作用。结果显示,各种特征模板大的添加可以在一定程度上提高分词精度,但是在这一分词方法中起决定作用的仍然是上下文中的词例信息。
-
-
张霄军;
董宇;
陈小荷
- 《第九届全国计算语言学学术会议》
| 2007年
-
摘要:
本文以学界两次对组合型歧义字串考察的矛盾结果为引子,指出在现代汉语自动分词中"组合型歧义"和"切分变异"的概念界定不清,并以例示的方式给出了各自的定义。通过四次语料考察、统计和分析,总结了汉语自动分词中组合型歧义字串和切分变异字串的常见类型,并探讨了切分变异的消解方法。
-
-
张霄军;
董宇;
陈小荷
- 《第九届全国计算语言学学术会议》
| 2007年
-
摘要:
本文以学界两次对组合型歧义字串考察的矛盾结果为引子,指出在现代汉语自动分词中"组合型歧义"和"切分变异"的概念界定不清,并以例示的方式给出了各自的定义。通过四次语料考察、统计和分析,总结了汉语自动分词中组合型歧义字串和切分变异字串的常见类型,并探讨了切分变异的消解方法。
-
-
张霄军;
董宇;
陈小荷
- 《第九届全国计算语言学学术会议》
| 2007年
-
摘要:
本文以学界两次对组合型歧义字串考察的矛盾结果为引子,指出在现代汉语自动分词中"组合型歧义"和"切分变异"的概念界定不清,并以例示的方式给出了各自的定义。通过四次语料考察、统计和分析,总结了汉语自动分词中组合型歧义字串和切分变异字串的常见类型,并探讨了切分变异的消解方法。