中文文本
中文文本的相关文献在1989年到2023年内共计405篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、信息与知识传播
等领域,其中期刊论文150篇、会议论文39篇、专利文献25807篇;相关期刊114种,包括人类工效学、情报探索、情报杂志等;
相关会议31种,包括第十二届全国信息隐藏暨多媒体信息安全学术大会、中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)等;中文文本的相关文献由973位作者贡献,包括高学、刘衍平、张春菊等。
中文文本—发文量
专利文献>
论文:25807篇
占比:99.27%
总计:25996篇
中文文本
-研究学者
- 高学
- 刘衍平
- 张春菊
- 张雪英
- 王丽娜
- 党章
- 冯立二
- 刘兴高
- 吴兴龙
- 唐奔宵
- 孙星明
- 孙茂松
- 孟奥
- 安东尼奥·扎莫拉
- 张发雨
- 张志猛
- 张泽银
- 数学理论与应用编辑部
- 朱海
- 李俊
- 杨正云
- 汪润
- 王伟
- 王宁
- 王文海
- 王文琦
- 许百华
- 陈志华
- 陈波
- 陈龙
- 魏文国
- 黄经赢
- 龚静
- Li Yi
- 万定生
- 万海
- 云晓春
- 付刚
- 何卓威
- 何春辉
- 何晓艺
- 余坎
- 俞凯
- 俞扬
- 俞旸
- 俞豪敏
- 冯钧
- 凌志辉
- 刘同存
- 刘开峰
-
-
数学理论与应用编辑部
-
-
摘要:
1.本刊为向国内外公开发行的学术季刊,主要刊登数学领域的学术论文。2.稿件应当包括题目、作者、作者单位、摘要、关键词、正文、参考文献等内容。如稿件正文为中文文本,请在中文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的英文翻译;如正文内容为英文,则在英文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的中文翻译。
-
-
李天昊;
霍其润;
闫跃;
徐远超
-
-
摘要:
关系抽取任务是要在实体识别的基础上确定无结构文本中实体对间的关系类别,即判断实体间的关系.针对目前中文关系抽取精度不足以及静态词向量无法很好地解读文本的问题,本文提出一种融合ERNIE预训练模型和注意力机制的TEXTCNN中文关系抽取模型.ERNIE词向量针对中文的特点以词组为单位做掩盖进行模型训练,实现了对中文文本更好的语义表达,再通过TEXTCNN模型对输入数据进行特征提取,融合注意力机制聚焦于影响最终结果的关键特征,从而实现特征优化提取.本文在百度发布的SKE数据集上进行实验,重点探索ERNIE模型结合注意力机制对中文文本的特征表达效果,结果表明本文模型可以更好地学习中文文本中的特征并用于关系抽取,有效提高关系抽取任务的准确率.
-
-
数学理论与应用编辑部
-
-
摘要:
1.本刊为向国内外公开发行的学术季刊,主要刊登数学领域的学术论文。2.稿件应当包括题目、作者、作者单位、摘要、关键词、正文、参考文献等内容。如稿件正文为中文文本,请在中文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的英文翻译;如正文内容为英文,则在英文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的中文翻译。
-
-
段建勇;
李杰东;
王昊
-
-
摘要:
中文文本检错是一项重要任务,在众多应用场景中都需要对各种场景转化而来的文本进行检错以便后续模型的运用。采用人工方式进行文本检错费时费力、效率低。研究者提出了自动检错的方法,但目前的研究多集中在以语义为基础进行检错,缺少对外部知识的引用。本文针对现有检错方法的不足,结合中文文本语句的特点,将输入的中文字符结合其拆字知识,同时将中文的分词结果结合其更小粒度的义原外部知识。
-
-
张芙蓉;
罗志娟
-
-
摘要:
中文文本校对技术在字词级和语法级层面已取得了较好的效果,但在语义层面还没有比较成熟的方法。为实现语义级中文文本自动校对,将深度学习技术引入自动校对。首先,出于中文文本语义级自动校对的需要,在现有已公开的中文校对测试集的基础上,加入语义错误样本数据,并通过数据增强技术,扩大语义差错数据规模,以使训练集及测试集中语义错误占比达到50%以上。其次,针对典型的语义错误类型,构建其对应的语义知识集,包括成语知识集、古诗词知识集、历史人物主要事件朝代年表知识集、敬谦词知识集、地理知识集等。在建立语义知识集的基础上,基于BERT预训练模型对数据集进行训练。最后,经过预训练,在初步确定模型之后,结合关键参数,进行微调,确定最终的自动校对模型。
-
-
于翠萍
-
-
摘要:
针对中文文本,通过引入语言学相关知识,分析了强定位地名和弱定位地名的用词特征和上下文特征,提取形式化的规则。此外,提出一种基于条件随机场的弱定位地名识别方法,将弱定位地名识别问题转化为序列标注问题。以150篇共18万字的新浪网新闻页面文本为例进行实验验证,结果表明,提出的方法能够有效识别弱定位地名,召回率为90.57%,准确率为92.36%,F值为91.46%。
-
-
张芙蓉
-
-
摘要:
文本自动校对属于自然语言处理技术研究内容之一,中文文本自动校对技术是中文信息处理技术的关键环节,可实现中文文本的自动化校对。首先阐述了中文文本校对技术的研究现状,中文文本校对方法的研究主要包括基于各种语言模型的自动校对探索、面向专业领域的中文文本校对研究、与语料库相关的校对研究、语义级的中文校对方法研究、基于深度学习的自动校对方法等;其次,探讨了中文文本自动校对实验数据集与校对算法性能评价指标;最后,针对产业界中文文本自动校对技术的产品研发及推广、结合出版界对中文文本自动校对手段的使用诉求,给出了中文文本自动校对的未来发展方向:即语义级中文文本校对的研究,大规模语料库、知识库、测评数据集的构建,将新方法应用于中文文本自动校对的研究。
-
-
宋国民;
张三强;
贾奋励
-
-
摘要:
针对中文文本中时间信息抽取的现实需求,在分析比较常用时间信息抽取方法优缺点的基础上,提出利用通用文本工程框架(GATE)进行中文时间信息抽取的方法.设计基于GATE进行中文文本时间信息抽取的处理流程,解决中文文本分词及词性标注、扩展时间领域词表、修编时间信息抽取规则等关键技术问题,实现中文文本中时间信息的识别和抽取.利用已标注时间信息的中文语料数据,对文中提出的中文时间信息抽取方法进行实验验证.实验结果表明,该方法具有较好的时间信息抽取效果.
-
-
梁艳春;
房爱莲
-
-
摘要:
给出了一种多通道卷积神经网络(Convolutional Neural Network,CNN)方法实现中文文本端到端的关系抽取.每个通道用分层的网络结构,在传播过程中互不影响,使神经网络能学习到不同的表示.结合中文语言的难点,加入注意力机制(Attention Mechanism,Att)获取更多的语义特征,并通过分段平均池化融入句子的结构信息.经过最大池化层获得句子的最终表示后,计算关系得分,并用排序损失函数(Ranking-Loss Function,RL)代替交叉熵函数进行训练.实验结果表明,提出的MCNN_Att_RL(Multi CNN_Att_RL)模型能有效提高关系抽取的查准率、召回率和F1值.
-
-
陈伟
-
-
摘要:
弹幕是最近比较流行的在线视频评论方式,因其内容为自发用户发出,可能带有大量的不和谐性,因此如何识别弹幕中的中文文本内容,文中使用了命名实体识别方法,针对弹幕文本规范化处理和研究,通过采用 Word2vec 方法进行词向量训练,以期望达到合理识别的效果。
-
-
PARK MinJun;
朴敏浚
- 《第十届中文教学现代化国际研讨会》
| 2016年
-
摘要:
随着大数据的趋势,越来越多的语言研究者开始关注和采用基于大规模语料的研究路线.但是,大部分语言学专业学生的统计知识基础相对薄弱,增加了他们在自然语言处理学习与应用方面的难度.因此,为了降低学习者对计算机与统计知识的陌生感,本文构建了一个用户友好的ICTCLAS分词/词性标注界面以及一个简单的基于N元语言模型的词串生成器.此平台为学习者提供了一个简易的中文文本处理手段,有利于他们理解统计语言模型的基本运作方式.
-
-
Xiaoyue Wang;
王笑月;
Ru Li;
李茹;
Fei Duan;
段菲
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致无法GPU的并行计算能力无法被充分利用.普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但为对长距离依赖获得良好的建模效果,处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险.针对以上问题,本文采用可通过参数调节感受野范围的空洞卷积,并引入了带有残差连接的门控机制,以强化有效信息、降低无效信息的影响,同时改善梯度消失问题;针对字向量表示能力有限的问题,本文还将字向量与其所属词的位置信息融合,以丰富文本特征.为验证本文所提出方法的有效性,在MSRA数据集以及Sina Resume数据集上进行了实验,F1值分别达到了92.97%与94.98%.与传统基于Bi-LSTM-CRF的命名实体识别模型相比,模型训练速度提升5~6倍,且表现优于一般的RNN架构.
-
-
Xiaoyue Wang;
王笑月;
Ru Li;
李茹;
Fei Duan;
段菲
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致无法GPU的并行计算能力无法被充分利用.普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但为对长距离依赖获得良好的建模效果,处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险.针对以上问题,本文采用可通过参数调节感受野范围的空洞卷积,并引入了带有残差连接的门控机制,以强化有效信息、降低无效信息的影响,同时改善梯度消失问题;针对字向量表示能力有限的问题,本文还将字向量与其所属词的位置信息融合,以丰富文本特征.为验证本文所提出方法的有效性,在MSRA数据集以及Sina Resume数据集上进行了实验,F1值分别达到了92.97%与94.98%.与传统基于Bi-LSTM-CRF的命名实体识别模型相比,模型训练速度提升5~6倍,且表现优于一般的RNN架构.
-
-
Xiaoyue Wang;
王笑月;
Ru Li;
李茹;
Fei Duan;
段菲
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致无法GPU的并行计算能力无法被充分利用.普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但为对长距离依赖获得良好的建模效果,处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险.针对以上问题,本文采用可通过参数调节感受野范围的空洞卷积,并引入了带有残差连接的门控机制,以强化有效信息、降低无效信息的影响,同时改善梯度消失问题;针对字向量表示能力有限的问题,本文还将字向量与其所属词的位置信息融合,以丰富文本特征.为验证本文所提出方法的有效性,在MSRA数据集以及Sina Resume数据集上进行了实验,F1值分别达到了92.97%与94.98%.与传统基于Bi-LSTM-CRF的命名实体识别模型相比,模型训练速度提升5~6倍,且表现优于一般的RNN架构.
-
-
Xiaoyue Wang;
王笑月;
Ru Li;
李茹;
Fei Duan;
段菲
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致无法GPU的并行计算能力无法被充分利用.普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但为对长距离依赖获得良好的建模效果,处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险.针对以上问题,本文采用可通过参数调节感受野范围的空洞卷积,并引入了带有残差连接的门控机制,以强化有效信息、降低无效信息的影响,同时改善梯度消失问题;针对字向量表示能力有限的问题,本文还将字向量与其所属词的位置信息融合,以丰富文本特征.为验证本文所提出方法的有效性,在MSRA数据集以及Sina Resume数据集上进行了实验,F1值分别达到了92.97%与94.98%.与传统基于Bi-LSTM-CRF的命名实体识别模型相比,模型训练速度提升5~6倍,且表现优于一般的RNN架构.
-
-
Taizhong Wu;
吴泰中;
Min Gu;
顾敏;
Junsheng Zhou;
周俊生;
Weiguang Qu;
曲维光;
Bin Li;
李斌;
Yanhui Gu;
顾彦慧
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018)》
| 2018年
-
摘要:
抽象语义表示(Abstract Meaning Representation,AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图.目前,中文AMR研究仍然处于起步阶段.本文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了实验性研究.首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络baseline系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的学习与表示;最后,模型中应用序列化标注实现AMR概念识别,优化了AMR概念识别效果.实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于baseline系统.
-
-
Taizhong Wu;
吴泰中;
Min Gu;
顾敏;
Junsheng Zhou;
周俊生;
Weiguang Qu;
曲维光;
Bin Li;
李斌;
Yanhui Gu;
顾彦慧
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018)》
| 2018年
-
摘要:
抽象语义表示(Abstract Meaning Representation,AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图.目前,中文AMR研究仍然处于起步阶段.本文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了实验性研究.首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络baseline系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的学习与表示;最后,模型中应用序列化标注实现AMR概念识别,优化了AMR概念识别效果.实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于baseline系统.
-
-
Taizhong Wu;
吴泰中;
Min Gu;
顾敏;
Junsheng Zhou;
周俊生;
Weiguang Qu;
曲维光;
Bin Li;
李斌;
Yanhui Gu;
顾彦慧
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018)》
| 2018年
-
摘要:
抽象语义表示(Abstract Meaning Representation,AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图.目前,中文AMR研究仍然处于起步阶段.本文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了实验性研究.首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络baseline系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的学习与表示;最后,模型中应用序列化标注实现AMR概念识别,优化了AMR概念识别效果.实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于baseline系统.
-
-
Taizhong Wu;
吴泰中;
Min Gu;
顾敏;
Junsheng Zhou;
周俊生;
Weiguang Qu;
曲维光;
Bin Li;
李斌;
Yanhui Gu;
顾彦慧
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018)》
| 2018年
-
摘要:
抽象语义表示(Abstract Meaning Representation,AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图.目前,中文AMR研究仍然处于起步阶段.本文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了实验性研究.首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络baseline系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的学习与表示;最后,模型中应用序列化标注实现AMR概念识别,优化了AMR概念识别效果.实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于baseline系统.
-
-
Jin Tianhua;
金天华;
Jiang Shan;
姜珊;
Zhao Meiqian;
赵美倩;
Liu Lu;
刘璐;
Yu Dong;
于东
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL 2018)》
| 2018年
-
摘要:
文本蕴含是自然语言处理的难点,其形式类型复杂、知识难以概括.早期多利用词汇蕴含和逻辑推理知识识别蕴含,但仅对特定类型的蕴含有效.近年来,利用大规模数据训练深度学习模型的方法在句级蕴含关系识别任务上取得优异性能,但模型不可解释,尤其是无法标定引起蕴含的具体语言片段.本文研究文本蕴含成因形式,归纳为词汇、句法异构、常识三类,并以句法异构蕴含为研究对象.针对上述两个问题,提出句法异构蕴含语块的概念,定义其边界识别任务.本文制定句法异构蕴含语块标注规范,建立标注数据集.在此基础上,分别建立基于规则和基于深度学习的模型,探索句法异构蕴含语块的自动识别方法.实验结果表明,本文提出的深度学习模型能有效发现蕴含片段,为下一步研究提供了可靠的基线方法.