您现在的位置: 首页> 研究主题> 中文文本

中文文本

中文文本的相关文献在1989年到2023年内共计405篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、信息与知识传播 等领域,其中期刊论文150篇、会议论文39篇、专利文献25807篇;相关期刊114种,包括人类工效学、情报探索、情报杂志等; 相关会议31种,包括第十二届全国信息隐藏暨多媒体信息安全学术大会、中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)等;中文文本的相关文献由973位作者贡献,包括高学、刘衍平、张春菊等。

中文文本—发文量

期刊论文>

论文:150 占比:0.58%

会议论文>

论文:39 占比:0.15%

专利文献>

论文:25807 占比:99.27%

总计:25996篇

中文文本—发文趋势图

中文文本

-研究学者

  • 高学
  • 刘衍平
  • 张春菊
  • 张雪英
  • 王丽娜
  • 党章
  • 冯立二
  • 刘兴高
  • 吴兴龙
  • 唐奔宵
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 数学理论与应用编辑部
    • 摘要: 1.本刊为向国内外公开发行的学术季刊,主要刊登数学领域的学术论文。2.稿件应当包括题目、作者、作者单位、摘要、关键词、正文、参考文献等内容。如稿件正文为中文文本,请在中文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的英文翻译;如正文内容为英文,则在英文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的中文翻译。
    • 李天昊; 霍其润; 闫跃; 徐远超
    • 摘要: 关系抽取任务是要在实体识别的基础上确定无结构文本中实体对间的关系类别,即判断实体间的关系.针对目前中文关系抽取精度不足以及静态词向量无法很好地解读文本的问题,本文提出一种融合ERNIE预训练模型和注意力机制的TEXTCNN中文关系抽取模型.ERNIE词向量针对中文的特点以词组为单位做掩盖进行模型训练,实现了对中文文本更好的语义表达,再通过TEXTCNN模型对输入数据进行特征提取,融合注意力机制聚焦于影响最终结果的关键特征,从而实现特征优化提取.本文在百度发布的SKE数据集上进行实验,重点探索ERNIE模型结合注意力机制对中文文本的特征表达效果,结果表明本文模型可以更好地学习中文文本中的特征并用于关系抽取,有效提高关系抽取任务的准确率.
    • 数学理论与应用编辑部
    • 摘要: 1.本刊为向国内外公开发行的学术季刊,主要刊登数学领域的学术论文。2.稿件应当包括题目、作者、作者单位、摘要、关键词、正文、参考文献等内容。如稿件正文为中文文本,请在中文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的英文翻译;如正文内容为英文,则在英文关键词后依次提供题目、作者、作者单位、摘要及关键词准确的中文翻译。
    • 段建勇; 李杰东; 王昊
    • 摘要: 中文文本检错是一项重要任务,在众多应用场景中都需要对各种场景转化而来的文本进行检错以便后续模型的运用。采用人工方式进行文本检错费时费力、效率低。研究者提出了自动检错的方法,但目前的研究多集中在以语义为基础进行检错,缺少对外部知识的引用。本文针对现有检错方法的不足,结合中文文本语句的特点,将输入的中文字符结合其拆字知识,同时将中文的分词结果结合其更小粒度的义原外部知识。
    • 张芙蓉; 罗志娟
    • 摘要: 中文文本校对技术在字词级和语法级层面已取得了较好的效果,但在语义层面还没有比较成熟的方法。为实现语义级中文文本自动校对,将深度学习技术引入自动校对。首先,出于中文文本语义级自动校对的需要,在现有已公开的中文校对测试集的基础上,加入语义错误样本数据,并通过数据增强技术,扩大语义差错数据规模,以使训练集及测试集中语义错误占比达到50%以上。其次,针对典型的语义错误类型,构建其对应的语义知识集,包括成语知识集、古诗词知识集、历史人物主要事件朝代年表知识集、敬谦词知识集、地理知识集等。在建立语义知识集的基础上,基于BERT预训练模型对数据集进行训练。最后,经过预训练,在初步确定模型之后,结合关键参数,进行微调,确定最终的自动校对模型。
    • 于翠萍
    • 摘要: 针对中文文本,通过引入语言学相关知识,分析了强定位地名和弱定位地名的用词特征和上下文特征,提取形式化的规则。此外,提出一种基于条件随机场的弱定位地名识别方法,将弱定位地名识别问题转化为序列标注问题。以150篇共18万字的新浪网新闻页面文本为例进行实验验证,结果表明,提出的方法能够有效识别弱定位地名,召回率为90.57%,准确率为92.36%,F值为91.46%。
    • 张芙蓉
    • 摘要: 文本自动校对属于自然语言处理技术研究内容之一,中文文本自动校对技术是中文信息处理技术的关键环节,可实现中文文本的自动化校对。首先阐述了中文文本校对技术的研究现状,中文文本校对方法的研究主要包括基于各种语言模型的自动校对探索、面向专业领域的中文文本校对研究、与语料库相关的校对研究、语义级的中文校对方法研究、基于深度学习的自动校对方法等;其次,探讨了中文文本自动校对实验数据集与校对算法性能评价指标;最后,针对产业界中文文本自动校对技术的产品研发及推广、结合出版界对中文文本自动校对手段的使用诉求,给出了中文文本自动校对的未来发展方向:即语义级中文文本校对的研究,大规模语料库、知识库、测评数据集的构建,将新方法应用于中文文本自动校对的研究。
    • 宋国民; 张三强; 贾奋励
    • 摘要: 针对中文文本中时间信息抽取的现实需求,在分析比较常用时间信息抽取方法优缺点的基础上,提出利用通用文本工程框架(GATE)进行中文时间信息抽取的方法.设计基于GATE进行中文文本时间信息抽取的处理流程,解决中文文本分词及词性标注、扩展时间领域词表、修编时间信息抽取规则等关键技术问题,实现中文文本中时间信息的识别和抽取.利用已标注时间信息的中文语料数据,对文中提出的中文时间信息抽取方法进行实验验证.实验结果表明,该方法具有较好的时间信息抽取效果.
    • 梁艳春; 房爱莲
    • 摘要: 给出了一种多通道卷积神经网络(Convolutional Neural Network,CNN)方法实现中文文本端到端的关系抽取.每个通道用分层的网络结构,在传播过程中互不影响,使神经网络能学习到不同的表示.结合中文语言的难点,加入注意力机制(Attention Mechanism,Att)获取更多的语义特征,并通过分段平均池化融入句子的结构信息.经过最大池化层获得句子的最终表示后,计算关系得分,并用排序损失函数(Ranking-Loss Function,RL)代替交叉熵函数进行训练.实验结果表明,提出的MCNN_Att_RL(Multi CNN_Att_RL)模型能有效提高关系抽取的查准率、召回率和F1值.
    • 陈伟
    • 摘要: 弹幕是最近比较流行的在线视频评论方式,因其内容为自发用户发出,可能带有大量的不和谐性,因此如何识别弹幕中的中文文本内容,文中使用了命名实体识别方法,针对弹幕文本规范化处理和研究,通过采用 Word2vec 方法进行词向量训练,以期望达到合理识别的效果。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号