您现在的位置：首页> 研究主题> 中文文本

中文文本

中文文本的相关文献在1989年到2023年内共计405篇，主要集中在自动化技术、计算机技术、无线电电子学、电信技术、信息与知识传播等领域，其中期刊论文150篇、会议论文39篇、专利文献25807篇；相关期刊114种，包括人类工效学、情报探索、情报杂志等；相关会议31种，包括第十二届全国信息隐藏暨多媒体信息安全学术大会、中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015）、SCEG2014研讨会（2014年“计算机科学与技术及教育技术“学术研讨会）等；中文文本的相关文献由973位作者贡献，包括高学、刘衍平、张春菊等。

中文文本—发文量

期刊论文>

论文：150篇占比：0.58%

会议论文>

论文：39篇占比：0.15%

专利文献>

论文：25807篇占比：99.27%

总计：25996篇

中文文本—发文趋势图

中文文本
-研究学者

高学
刘衍平
张春菊
张雪英
王丽娜
党章
冯立二
刘兴高
吴兴龙
唐奔宵
孙星明
孙茂松
孟奥
安东尼奥·扎莫拉
张发雨
张志猛
张泽银
数学理论与应用编辑部
朱海
李俊
杨正云
汪润
王伟
王宁
王文海
王文琦
许百华
陈志华
陈波
陈龙
魏文国
黄经赢
龚静
Li Yi
万定生
万海
云晓春
付刚
何卓威
何春辉
何晓艺
余坎
俞凯
俞扬
俞旸
俞豪敏
冯钧
凌志辉
刘同存
刘开峰

中文文本
-相关主题

中文文本
-相关期刊

中文文本
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2023
(2)
2022
(67)
2021
(56)
2020
(7)
2019
(7)
2018
(9)
2017
(4)
2016
(7)
2015
(5)
2014
(7)
2013
(4)
2012
(6)
2011
(3)
2010
(6)
2009
(7)
2008
(11)
2007
(9)
2006
(4)
2005
(4)
2004
(6)
2003
(2)
2002
(2)
2001
(3)
1999
(3)
1998
(4)
1997
(3)
1996
(4)
1995
(1)
1994
(2)
1993
(1)
1992
(1)
1989
(2)

期刊

收录数据库

作者

高学
(7)
刘衍平
(4)
张春菊
(4)
张雪英
(4)
王丽娜
(4)
党章
(3)
冯立二
(3)
刘兴高
(3)
吴兴龙
(3)
唐奔宵
(3)
孙星明
(3)
孙茂松
(3)
孟奥
(3)
安东尼奥·扎莫拉
(3)
张发雨
(3)
张志猛
(3)
张泽银
(3)
数学理论与应用编辑部
(3)
朱海
(3)
李俊
(3)
杨正云
(3)
汪润
(3)
王伟
(3)
王宁
(3)
王文海
(3)
王文琦
(3)
许百华
(3)
陈志华
(3)
陈波
(3)
陈龙
(3)
魏文国
(3)
黄经赢
(3)
龚静
(3)
Li Yi
(2)
万定生
(2)
万海
(2)
云晓春
(2)
付刚
(2)
何卓威
(2)
何春辉
(2)
何晓艺
(2)
余坎
(2)
俞凯
(2)
俞扬
(2)
俞旸
(2)
俞豪敏
(2)
冯钧
(2)
凌志辉
(2)
刘同存
(2)
刘开峰
(2)

关键词

申请/权力人

;

1. 《数学理论与应用》征稿简则
- 数学理论与应用编辑部
- 摘要： 1.本刊为向国内外公开发行的学术季刊,主要刊登数学领域的学术论文。2.稿件应当包括题目、作者、作者单位、摘要、关键词、正文、参考文献等内容。如稿件正文为中文文本,请在中文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的英文翻译;如正文内容为英文,则在英文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的中文翻译。
2. 融合ERNIE和注意力机制的中文关系抽取模型
- 李天昊；霍其润；闫跃；徐远超
- 摘要：关系抽取任务是要在实体识别的基础上确定无结构文本中实体对间的关系类别,即判断实体间的关系.针对目前中文关系抽取精度不足以及静态词向量无法很好地解读文本的问题,本文提出一种融合ERNIE预训练模型和注意力机制的TEXTCNN中文关系抽取模型.ERNIE词向量针对中文的特点以词组为单位做掩盖进行模型训练,实现了对中文文本更好的语义表达,再通过TEXTCNN模型对输入数据进行特征提取,融合注意力机制聚焦于影响最终结果的关键特征,从而实现特征优化提取.本文在百度发布的SKE数据集上进行实验,重点探索ERNIE模型结合注意力机制对中文文本的特征表达效果,结果表明本文模型可以更好地学习中文文本中的特征并用于关系抽取,有效提高关系抽取任务的准确率.
3. 《数学理论与应用》征稿简则
- 数学理论与应用编辑部
- 摘要： 1.本刊为向国内外公开发行的学术季刊,主要刊登数学领域的学术论文。2.稿件应当包括题目、作者、作者单位、摘要、关键词、正文、参考文献等内容。如稿件正文为中文文本,请在中文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的英文翻译;如正文内容为英文,则在英文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的中文翻译。
4. 基于外部知识的中文文本检错
- 段建勇；李杰东；王昊
- 摘要：中文文本检错是一项重要任务,在众多应用场景中都需要对各种场景转化而来的文本进行检错以便后续模型的运用。采用人工方式进行文本检错费时费力、效率低。研究者提出了自动检错的方法,但目前的研究多集中在以语义为基础进行检错,缺少对外部知识的引用。本文针对现有检错方法的不足,结合中文文本语句的特点,将输入的中文字符结合其拆字知识,同时将中文的分词结果结合其更小粒度的义原外部知识。
- 中文文本
- 中文字符
- 人工方式
- 义原
- 分词
- 检错
- 外部知识
- 应用场景
5. 基于深度学习的语义级中文文本自动校对研究
- 张芙蓉；罗志娟
- 摘要：中文文本校对技术在字词级和语法级层面已取得了较好的效果,但在语义层面还没有比较成熟的方法。为实现语义级中文文本自动校对,将深度学习技术引入自动校对。首先,出于中文文本语义级自动校对的需要,在现有已公开的中文校对测试集的基础上,加入语义错误样本数据,并通过数据增强技术,扩大语义差错数据规模,以使训练集及测试集中语义错误占比达到50%以上。其次,针对典型的语义错误类型,构建其对应的语义知识集,包括成语知识集、古诗词知识集、历史人物主要事件朝代年表知识集、敬谦词知识集、地理知识集等。在建立语义知识集的基础上,基于BERT预训练模型对数据集进行训练。最后,经过预训练,在初步确定模型之后,结合关键参数,进行微调,确定最终的自动校对模型。
6. 基于条件随机场的中文文本弱定位地名识别
- 于翠萍
- 摘要：针对中文文本,通过引入语言学相关知识,分析了强定位地名和弱定位地名的用词特征和上下文特征,提取形式化的规则。此外,提出一种基于条件随机场的弱定位地名识别方法,将弱定位地名识别问题转化为序列标注问题。以150篇共18万字的新浪网新闻页面文本为例进行实验验证,结果表明,提出的方法能够有效识别弱定位地名,召回率为90.57%,准确率为92.36%,F值为91.46%。
7. 中文文本自动校对技术研究综述
- 张芙蓉
- 摘要：文本自动校对属于自然语言处理技术研究内容之一,中文文本自动校对技术是中文信息处理技术的关键环节,可实现中文文本的自动化校对。首先阐述了中文文本校对技术的研究现状,中文文本校对方法的研究主要包括基于各种语言模型的自动校对探索、面向专业领域的中文文本校对研究、与语料库相关的校对研究、语义级的中文校对方法研究、基于深度学习的自动校对方法等;其次,探讨了中文文本自动校对实验数据集与校对算法性能评价指标;最后,针对产业界中文文本自动校对技术的产品研发及推广、结合出版界对中文文本自动校对手段的使用诉求,给出了中文文本自动校对的未来发展方向:即语义级中文文本校对的研究,大规模语料库、知识库、测评数据集的构建,将新方法应用于中文文本自动校对的研究。
8. 基于GATE的中文时间信息抽取方法
- 宋国民；张三强；贾奋励
- 摘要：针对中文文本中时间信息抽取的现实需求,在分析比较常用时间信息抽取方法优缺点的基础上,提出利用通用文本工程框架(GATE)进行中文时间信息抽取的方法.设计基于GATE进行中文文本时间信息抽取的处理流程,解决中文文本分词及词性标注、扩展时间领域词表、修编时间信息抽取规则等关键技术问题,实现中文文本中时间信息的识别和抽取.利用已标注时间信息的中文语料数据,对文中提出的中文时间信息抽取方法进行实验验证.实验结果表明,该方法具有较好的时间信息抽取效果.
- 中文文本
- 时间
- 信息抽取
- Gate
9. 基于多通道卷积神经网络的中文文本关系抽取
- 梁艳春；房爱莲
- 摘要：给出了一种多通道卷积神经网络(Convolutional Neural Network,CNN)方法实现中文文本端到端的关系抽取.每个通道用分层的网络结构,在传播过程中互不影响,使神经网络能学习到不同的表示.结合中文语言的难点,加入注意力机制(Attention Mechanism,Att)获取更多的语义特征,并通过分段平均池化融入句子的结构信息.经过最大池化层获得句子的最终表示后,计算关系得分,并用排序损失函数(Ranking-Loss Function,RL)代替交叉熵函数进行训练.实验结果表明,提出的MCNN_Att_RL(Multi CNN_Att_RL)模型能有效提高关系抽取的查准率、召回率和F1值.
10. 中文文本命名实体识别在弹幕中的研究探讨
- 陈伟
- 摘要：弹幕是最近比较流行的在线视频评论方式,因其内容为自发用户发出,可能带有大量的不和谐性,因此如何识别弹幕中的中文文本内容,文中使用了命名实体识别方法,针对弹幕文本规范化处理和研究,通过采用 Word2vec 方法进行词向量训练,以期望达到合理识别的效果。

1. 一种用于中文文本定级以及计算中文文本难度评分的方法
- 中山大学
- 公开公告日期：2021.05.04
- 摘要：本发明涉及一种用于中文文本定级以及计算中文文本难度评分的方法，进行首先文本获取及等级标注，获取具有分类标签的作为训练集的文章，然后进行特征提取，获取每篇文章所对应的全部语言学特征的特征值；再之，进行模型的建立与检验，得出预测准确率达到预期的模型，最后采用得到的模型预测文本难度。本发明适用于各种需要评价文本易读性的场景之中，采用的支持向量回归算法模型通过提高特征的维度空间来达到更好的评分效果，优于传统的线性模型。
2. 中文分词系统及中文文本的分词方法
- 鼎富智能科技有限公司
- 公开公告日期：2022.09.30
- 摘要：本发明实施例公开一种中文分词系统及分词方法，该分词系统包括：分词算法单元，用于为用户提供至少两种中文分词系统所支持的分词算法；分词模型单元，用于为用户提供至少两种中文分词系统所支持的第一分词模型；处理单元，用于确定用户从分词算法单元中选择的分词算法和从分词模型单元中选择的第一分词模型的类型是否对应；在对应的情况下，利用用户选择的分词算法以及第一分词模型对中文文本进行分词；在不对应的情况下，利用用户选择的分词算法以及类型与分词算法具有对应关系的第一分词模型，对中文文本进行分词。该中文分词系统降低了使用和调优门槛，便于用户调整分词流程，适应不同应用场景下的分词需求。
3. 用于中文文本处理系统的中文分词方法
- 摩托罗拉公司
- 公开公告日期：2006.05.17
- 摘要：一种用于中文文本处理系统的中文分词方法，包括取得输入汉字串的前两个汉字；在词库中检索出与前两个汉字的起始汉字相关的索引节点；取得该索引节点中的指针，该指针指向该词库中相应的词汇集合；在词汇集合中进行近似二分查找，如果找到该两个汉字词汇，则保存该词汇的索引，否则，保存与该两个汉字最接近的词汇的索引；对于输入汉字串，在该词汇集合中执行邻近匹配，以获得具有最大长度的匹配词汇，并把该匹配的词汇作为当前分词的结果。对于上述分词结果，本发明还进行切分歧义消解、识别中文人名、归并数词、量词和叠词、识别翻译人名、归并单字以及归并前后缀和识别地名。本发明在分词准确率和响应时间方面得到了重大改进。
4. 从连续的中文文本中分离出中文词的方法
- 国际商业机器公司
- 公开公告日期：2004.09.22
- 摘要：本发明一个处理过程，该过程用于机器分析连续的中文文本并分离出组成文本的词。该处理过程使用一个词典、一些处理标点符号的直接规则、识别一串中文文本中全部词和通过依次更严格的过滤机制消除不合逻辑段从而将输入文本中的重叠词分解成一组相邻词的方法，以及解除多义性的方法。
5. 一种用于中文文本定级以及计算中文文本难度评分的方法
- 中山大学
- 公开公告日期：2018-05-01
- 摘要：本发明涉及一种用于中文文本定级以及计算中文文本难度评分的方法，进行首先文本获取及等级标注，获取具有分类标签的作为训练集的文章，然后进行特征提取，获取每篇文章所对应的全部语言学特征的特征值；再之，进行模型的建立与检验，得出预测准确率达到预期的模型，最后采用得到的模型预测文本难度。本发明适用于各种需要评价文本易读性的场景之中，采用的支持向量回归算法模型通过提高特征的维度空间来达到更好的评分效果，优于传统的线性模型。
6. 一种基于强编码和中文分词的中文文本分拣系统
- 浙江大学
- 公开公告日期：2022-11-25
- 摘要：本发明公开了一种基于强编码和中文分词的中文文本分拣系统，该系统基于强编码模型和中文分词数据实现中文文本分拣，首先获取包含大量中文文本及对应标签的数据库，采用带标签的中文文本数据作为输入，对中文文本进行分词后再编码成机器可识别格式，将该编码后的句子输入中文文本分拣模型进行模型训练，得到训练好的模型便可用于新获取的中文文本自动分拣。本发明实现了自动化、高准确率的中文文本分拣，考虑了中文字词的前后关系，克服了人工进行文本分拣效率低以及传统方法准确率低的不足，可广泛应用并有助于军事情报分拣、新闻主题分类和电影评论分类等领域的智能化。
7. 一种基于大数据和中文特征的中文文本分词方法
- 上海晏鼠计算机技术股份有限公司
- 公开公告日期：2019-09-27
- 摘要：本发明公开了一种基于大数据和中文特征的中文文本分词方法，第一步：首先建立文本库；第二步：然后对文本库中的文章进行分词；第三步：再对切分词组进行拼接；第四步：拼接得到的词组进行词频统计；第五步：之后对不同候选词库中的词组进行相似度计算；第六步：最后对候选词库进行整合优化形成行业词典。算法运行稳定、效果良好，技术成熟；全切分分词方法获得输入句子的所有可能的切分形式，从根本上避免可能切分形式的遗漏，实现完备的歧义检测；结合上下文识别新词，自动消除和切分歧义，分词准确度更高；将网络电子文本作为自动分词资源，利用相关手段在电子资源库中直接获取需要的知识，应用范围广泛，不受待处理文本的领域限制。
8. 中文分词系统及中文文本的分词方法
- 北京神州泰岳软件股份有限公司
- 公开公告日期：2018-12-18
- 摘要：本发明实施例公开一种中文分词系统及分词方法，该分词系统包括：分词算法单元，用于为用户提供至少两种中文分词系统所支持的分词算法；分词模型单元，用于为用户提供至少两种中文分词系统所支持的第一分词模型；处理单元，用于确定用户从分词算法单元中选择的分词算法和从分词模型单元中选择的第一分词模型的类型是否对应；在对应的情况下，利用用户选择的分词算法以及第一分词模型对中文文本进行分词；在不对应的情况下，利用用户选择的分词算法以及类型与分词算法具有对应关系的第一分词模型，对中文文本进行分词。该中文分词系统降低了使用和调优门槛，便于用户调整分词流程，适应不同应用场景下的分词需求。
9. 一种在普通纸上手写中文直接形成中文文本的方法和系统
- 高永杰
- 公开公告日期：2009-11-18
- 摘要：在原有数码电子笔的基础上经改造增设了获取不同颜色、不同笔画宽度、不同抬笔时间间隔的功能，模式识别软件上创造了用多种集合信息单字区别和笔划处理方法，分类决策中以笔画数目和汉字多种组合关系相结合的方法快速提取单字方法，以及编制相适应的中文文字库和形成其他采集方法，以此实现用数码电子笔在普通纸上手写中文直接形成中文文本的系统和方法。
10. 从连续的中文文本中分离出中文词的方法
- 国际商业机器公司
- 公开公告日期：2000-05-31
- 摘要：本发明一个处理过程,该过程用于机器分析连续的中文文本并分离出组成文本的词。该处理过程使用一个词典、一些处理标点符号的直接规则、识别一串中文文本中全部词和通过依次更严格的过滤机制消除不合逻辑段从而将输入文本中的重叠词分解成一组相邻词的方法,以及解除多义性的方法。

中文文本

中文文本—发文量

中文文本—发文趋势图

中文文本-研究学者

中文文本-相关主题

中文文本-相关期刊

中文文本-相关会议

中文文本
-研究学者

中文文本
-相关主题

中文文本
-相关期刊

中文文本
-相关会议