文本处理
文本处理的相关文献在1984年到2023年内共计440篇,主要集中在自动化技术、计算机技术、科学、科学研究、教育
等领域,其中期刊论文255篇、会议论文27篇、专利文献1095692篇;相关期刊182种,包括管理观察、情报理论与实践、语文教学研究等;
相关会议22种,包括信息系统协会中国分会第六届学术年会、中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、2014湖北省计算机学会学术年会等;文本处理的相关文献由870位作者贡献,包括李安新、郭垿宏、陈岚等。
文本处理—发文量
专利文献>
论文:1095692篇
占比:99.97%
总计:1095974篇
文本处理
-研究学者
- 李安新
- 郭垿宏
- 陈岚
- 姜里羊
- 李斌
- 王宇光
- 陈伟
- 藤本拓
- 郭心语
- 孙俊
- 柴振荣
- 王砚峰
- 直井聪
- 程善伯
- 胜山裕
- 刘二中
- 刘天赏
- 刘菲菲
- 张金超
- 李文斌
- 李若铭
- 池田大志
- 牛珍珍
- 高翔
- 严俊
- 中村一成
- 于翠楠
- 付年钧
- 付骁弈
- 任玲玲
- 何俊志
- 佘正炜
- 侯培旭
- 冉祥映
- 冯继民
- 刘志强
- 刘晶晶
- 刘椿年
- 加纳敏行
- 包祖贻
- 华镇
- 卢鲤
- 吉村健
- 吕晓宝
- 吕雅娟
- 吴友政
- 吴潇
- 吾守尔·斯拉木
- 周干斌
- 周杰
-
-
陈玉松;
费岳君
-
-
摘要:
本文以一节高中英语课外阅读教学为例,探讨如何选择适合学生、服务教学的课外阅读材料,并从内容和语言两个角度提出了材料的处理策略,以使改编后的文本更适合学生的认知水平和实际需求。教师可以从文本内容、文本结构和文本探究三个方面解读文本,从而加深学生对文本的理解。
-
-
王瑶;
陈翔;
高艳彬
-
-
摘要:
近年来,企业办公系统的更新速度越来越快,对于不同的系统功能和版本,随之产生了大量的帮助文档。当用户遇到一些问题时,如果让用户从这些文档中去寻找解决问题的办法,将会浪费很多时间。本文使用Python语言,通过对收集到的帮助文档内容进行处理,最终搭建了一个基于Flask的企业办公帮助文档检索系统。办公系统的用户只需要输入简单的问题描述,就可返回解决该问题的帮助文档,方便系统使用人员快速准确地定位问题的解决办法,从而有利于提高工作效率。
-
-
丁赛红
-
-
摘要:
OCR-NLP图文处理系统是一种结合大OCR-NLP图文处理数据进行人工智能阅卷的系统。该系统通常先扫描或者拍照学生试卷或作业,进行图片OCR识别,再利用NLP文本处理进行英语书写质量和语义层面的自动评价,系统会抽取多个维度的特征,在文章结构、表达方式、修辞识别等方面得到评分数据来帮助英语教师更加精准地分析学生的薄弱点,通过技术辅助教师达到精准诊断,最终实现精准教学。
-
-
陈喆;
魏思奇;
吴仪邦;
文雄飞;
向大享;
李经纬
-
-
摘要:
微博作为目前主流的互联网社交媒体,群众可在其上随时随地发布"河湖长制"相关的事件信息.通过微博对感兴趣事件进行提取与分类可以有效提高"河湖长制"管理过程中问题事件的发现与解决效率,并针对群众对河湖岸线管理状态评价进行有效的监测与分析.随着"互联网+"技术在河湖长制中发挥巨大作用,对微博社交大数据在"河湖长制"管理工作中的应用进行了探讨,基于互联网社交媒体中含有的大量关于"河湖长制"事件的文字描述信息,提出了微博社交文本信息挖掘系统框架,采用互联网爬取技术和语义分析技术抓取关于"河湖长制"事件的新闻和公众信息,并对事件进行识别,提取时间、位置和事件类型等标签,最后进行数据挖掘分析情感倾向.以2018年6月至2020年12月微博上珠江河网区数据为实例,情感分析模型在测试集上的事件分类准确率为88.6%,证明该模型具有一定的可用性.该舆情分析系统可极大提高了"河湖长制"管理效率.
-
-
李作康;
王妍妍;
高菁
-
-
摘要:
针对从海量新闻数据中难以提取热点事件发展趋势的问题,提出了一种基于事件的地区局势分析方法,并以香港事件为例进行建模分析.首先,利用Solr搜索引擎从海量新闻文本数据中快速高效搜索新闻数据;接着,利用自然语言处理技术对新闻进行分词,通过构建事件严重程度词典和政府态度词典,实现了单篇新闻评分;然后,考虑事件累加效应和新闻衰减特性,建立衡量事件严重程度和政府态度的计算模型;最后,利用GDELT(全球事件、语言和语气数据库)数据集验证了模型的准确性.
-
-
张瑜
-
-
摘要:
信息技术日新月异的发展对教育教学提出了更高的要求.培养学生的信息意识、提高学生的信息处理与加工技能、发展学生利用信息技术解决问题的能力,已成为新时代对信息科技课程提出的又一迫切要求.不论是日常生活还是专业研究领域,文字信息图示化的运用都非常广泛,因此信息科技课程对该部分内容亦十分重视.另外,由于该技能具有较强的延展性,能融合多门学科的知识内容,因此教师在进行教学设计时,还需额外考虑文字信息的语篇长度和文本结构等因素.总而言之,教师应遵循学生的认知发展规律,基于本学科核心素养的相关要求,去探索文字信息图示化的各种方法,挖掘文字信息加工的意义和价值,促使学生成长为具有社会责任感的信息时代公民.
-
-
-
郑坤;
薛明晰;
纪传胤
-
-
摘要:
术语是通过语言或文字来表达或限定专业概念的约定性语言符号,本文首先对术语的定义、术语的特性以及术语抽取效果的评价方法进行概述,并在概述的基础上介绍了目前常见的术语抽取方法,包括基于规则、基于统计、基于词图模型、基于主题模型和基于深度学习的方法等.文章还对上述方法做了原理介绍和使用该方法进行术语抽取的流程,最后指出了术语抽取面临的挑战和研究展望.
-
-
邓春宇;
沙宇恒;
任玲玲;
陈文静;
严俊
-
-
摘要:
企业项目储备是公司明确发展方向,打造公司核心竞争产品的关键.国家电网有限公司每年会投资大量项目,项目征集储备过程数据量较大,储备项目筛选、数据整理需要大量的人力、物力.基于此,利用人工智能、机器学习算法对企业储备项目数据进行智能整理、归类,以及剔除重复提报项目、抽取储备项目主要建设方向和内容,对于公司投资决策、产品研发、项目管理有重要意义.文章基于国家电网有限公司海量项目储备数据,针项目征集储备过程智能管理和价值分析的需求,融合文本数据的预处理方法、数据向量表示模型及相似度计算方法,改进K-Means算法,实现项目储备数据智能聚类,并在项目储备数据聚类的基础上,研究储备项目内容智能摘要算法,实现电网企业储备项目数据的价值挖掘,为企业项目管理及投资决策提供支撑.
-
-
李作康;
王妍妍;
高菁
-
-
摘要:
针对从海量新闻数据中难以提取热点事件发展趋势的问题,提出了一种基于事件的地区局势分析方法,并以香港事件为例进行建模分析。首先,利用Solr搜索引擎从海量新闻文本数据中快速高效搜索新闻数据;接着,利用自然语言处理技术对新闻进行分词,通过构建事件严重程度词典和政府态度词典,实现了单篇新闻评分;然后,考虑事件累加效应和新闻衰减特性,建立衡量事件严重程度和政府态度的计算模型;最后,利用GDELT(全球事件、语言和语气数据库)数据集验证了模型的准确性。
-
-
秦海鹏;
桑孝伟
- 《第十一届全国地质档案资料学术研讨会》
| 2018年
-
摘要:
中文分词是利用计算机自动识别文本中词的边界的过程,是中文原始文本处理最重要的预处理步骤.目前,北京地质资料馆拥有近万档电子化成果地质资料,但是作为公益投资形成的、具有社会服务属性的准公共产品,仍属于不完整的信息产品,难以开展二次开发.本文探讨利用中文分词模块分析成果地质资料的摘要文本相似性,为馆内后续利用计算机进行文本分类、信息检索、信息过滤等后续中文文本信息处理打下基础.
-
-
刘菲菲;
牛珍珍
- 《2016年城市风险与应急管理论坛》
| 2016年
-
摘要:
基于对专家案例库系统的展望以及当前应急管理案例库系统的建设情况,结合数据挖掘和文本处理领域的分类、聚类等技术,本文提出了一种结构化案例库构建的思路,围绕信息采集、事件跟踪、事件处理和案例表示四部分对结构化案例库构建的流程进行了描述.同时,基于结构化案例库的特点,本文从辅助决策的角度出发,展示了如何将结构化案例库应用在应急管理领域中,为结构化案例库系统的建设与应用提供了一种思路.
-
-
-
-
-
ZHOU Yong-mei;
周咏梅;
WANG Wei;
王伟;
YANG Ai-min;
阳爱民;
LIN Jiang-hao;
林江豪;
Fang Ze-feng;
方泽锋
- 《中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)》
| 2015年
-
摘要:
针对由微博短文本特征规模大、自身特征较少等特点导致的数据稀疏性,提出一种基于特征簇的微博情感分类方法.提出的分类方法以大规模语料库为基础,利用word2vec模型学习词语之间潜在的语义关联,将单个词语表示成多维向量的形式;结合情感词典,提取出微博文本的情感特征集,在基于词向量计算词语相似度方法的基础上,将情感特征合并为特征簇,以此构造低维的文本向量;最后利用机器学习算法,构建情感分类器,实现微博短文本的情感分类.实验结果表明,本文提出的方法对情感特征的降维是可行和有效的,并且取得很好的情感分类效果.
-
-
ZHOU Yong-mei;
周咏梅;
WANG Wei;
王伟;
YANG Ai-min;
阳爱民;
LIN Jiang-hao;
林江豪;
Fang Ze-feng;
方泽锋
- 《中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)》
| 2015年
-
摘要:
针对由微博短文本特征规模大、自身特征较少等特点导致的数据稀疏性,提出一种基于特征簇的微博情感分类方法.提出的分类方法以大规模语料库为基础,利用word2vec模型学习词语之间潜在的语义关联,将单个词语表示成多维向量的形式;结合情感词典,提取出微博文本的情感特征集,在基于词向量计算词语相似度方法的基础上,将情感特征合并为特征簇,以此构造低维的文本向量;最后利用机器学习算法,构建情感分类器,实现微博短文本的情感分类.实验结果表明,本文提出的方法对情感特征的降维是可行和有效的,并且取得很好的情感分类效果.
-
-
ZHOU Yong-mei;
周咏梅;
WANG Wei;
王伟;
YANG Ai-min;
阳爱民;
LIN Jiang-hao;
林江豪;
Fang Ze-feng;
方泽锋
- 《中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)》
| 2015年
-
摘要:
针对由微博短文本特征规模大、自身特征较少等特点导致的数据稀疏性,提出一种基于特征簇的微博情感分类方法.提出的分类方法以大规模语料库为基础,利用word2vec模型学习词语之间潜在的语义关联,将单个词语表示成多维向量的形式;结合情感词典,提取出微博文本的情感特征集,在基于词向量计算词语相似度方法的基础上,将情感特征合并为特征簇,以此构造低维的文本向量;最后利用机器学习算法,构建情感分类器,实现微博短文本的情感分类.实验结果表明,本文提出的方法对情感特征的降维是可行和有效的,并且取得很好的情感分类效果.
-
-
ZHOU Yong-mei;
周咏梅;
WANG Wei;
王伟;
YANG Ai-min;
阳爱民;
LIN Jiang-hao;
林江豪;
Fang Ze-feng;
方泽锋
- 《中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)》
| 2015年
-
摘要:
针对由微博短文本特征规模大、自身特征较少等特点导致的数据稀疏性,提出一种基于特征簇的微博情感分类方法.提出的分类方法以大规模语料库为基础,利用word2vec模型学习词语之间潜在的语义关联,将单个词语表示成多维向量的形式;结合情感词典,提取出微博文本的情感特征集,在基于词向量计算词语相似度方法的基础上,将情感特征合并为特征簇,以此构造低维的文本向量;最后利用机器学习算法,构建情感分类器,实现微博短文本的情感分类.实验结果表明,本文提出的方法对情感特征的降维是可行和有效的,并且取得很好的情感分类效果.
-