文本特征
文本特征的相关文献在1994年到2022年内共计546篇,主要集中在自动化技术、计算机技术、中国文学、常用外国语
等领域,其中期刊论文412篇、会议论文31篇、专利文献80785篇;相关期刊304种,包括现代语文(语言研究)、英语教师、中小学英语教学与研究等;
相关会议27种,包括2015年中国科技传播论坛、世界中医药学会联合会翻译专业委员会第六届学术年会、华东地区高等院校自然科学学报编辑协会2014年学术年会等;文本特征的相关文献由994位作者贡献,包括冯琛、姜洪伟、张恒等。
文本特征—发文量
专利文献>
论文:80785篇
占比:99.45%
总计:81228篇
文本特征
-研究学者
- 冯琛
- 姜洪伟
- 张恒
- 张鑫
- 彭永生
- 李弼程
- 许祖华
- 邓立邦
- 郁友琴
- 金平艳
- 顾宏
- 丁兆云
- 乔凤才
- 云琪
- 任维政
- 何娟
- 冯亚琴
- 冯永
- 冯福利
- 刘凯
- 刘宇
- 刘艳云
- 刘连忠
- 刘静
- 卢睿轩
- 史金城
- 叶栋
- 吴华鹏
- 吴婷
- 吴海威
- 周异
- 喻飞
- 姬晨
- 姬潇
- 宋雪萌
- 宋颖洁
- 尚家兴
- 尹存燕
- 崔岩松
- 应志文
- 庞景安
- 康雁
- 康静文
- 张兆心
- 张建兵
- 张新阳
- 张晓欢
- 张梅
- 张祖平
- 张立民
-
-
王玉洁;
戚桂杰;
王凯平;
徐宏祯
-
-
摘要:
产品用户在企业建立的开放式创新平台上发布创意,认可度表示创意是否受到欢迎,是衡量创意质量的重要指标。通过创意文本传达的信号,可以快速高效识别有价值的创意。本研究基于信号理论,从信息和情感两个方面提出五种语言信号,据此构建语言信号对创意认可度影响的理论模型,并采用Salesforce TrailBlazer Community的10818条创意验证模型和假设。结果表明,信息独特性、文本可读性和情感效价对创意认可度产生正向影响,主题多样性及情感主观性对创意认可度产生负向影响。本研究结论有助于开放式创新平台管理者加深对创意文本特征的认知,制定更为完善的运营策略。
-
-
翁彬月;
秦永彬;
黄瑞章;
任丽娜;
田悦霖
-
-
摘要:
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。
-
-
田铁军
-
-
摘要:
中国博物馆展品的英文解说词大都是由其中文解说词逐句翻译而成,难以照顾到英语国家受众的阅读习惯和信息期待。国内学者的相关研究也基本上是围绕如何改进翻译策略、提高翻译质量展开,不能从根本上解决英文解说不到位的问题。为此,中国博物馆展品的英文解说词应摆脱中文原文的羁绊,跳出翻译研究的定势,需要对展品信息重新整理加工,借鉴西方国家博物馆解说词的文本特征进行撰写,以满足西方读者的阅读习惯与期待,从而让我国博物馆更好地讲述中国故事,让中国文化更快地“走出去”。
-
-
梁龙跃;
刘波
-
-
摘要:
上市公司年报中的描述性文本信息是上市公司信息披露的重要组成部分,通过对上市公司信息披露文本的挖掘与分析可以提高对其财务风险的预测能力。基于BERT(bidirectional encoder representations from transformer)模型与自编码器(autoencoder,AE),提出了BERT-AE融合文本特征提取模型,提取A股市场531家上市公司年报中"经营情况讨论与分析"和"审计报告"的文本特征,构建能够反映财务困境公司与正常公司的文本特征指标,随后将文本特征指标与财务指标数据结合,分别使用Logistic回归、极端梯度提升(extreme gradient boosting,XGBoost)、人工神经网络(artificial neural networks,ANN)、卷积神经网络(convolutional neural networks,CNN)四种模型,检验加入文本特征指标后财务风险预测的准确性是否得到提高,并使用Word2Vec-CNN-AE、Word2Vec-LSTM-AE模型提取财务文本特征进行对比实验。结果表明,三种模型提取的财务文本特征均能使财务预警模型预测的AUC得到提升,且BERT-AE模型提取的财务文本特征使得四种财务预警模型预测的AUC值提升效果更为显著,表明BERT-AE模型有效地提取了财务文本特征,提高了上市公司财务风险预警模型的预测能力。
-
-
夏英;
陈开鑫
-
-
摘要:
利用微博数据检测突发事件具有重要意义。针对以往检测方法特征不够丰富、准确率不高等问题,提出了一种基于多种特征融合的微博突发事件检测方法。该方法根据情感符号构建情感特征模型,对微博数据进行情感分类,并采用Kleinberg算法对情感特征进行突发期检测;在突发期内根据词频特征、词频增长特征和话题标签特征融合加权提取突发词,并基于共词分析法计算突发词之间的相似度距离,构建词共现矩阵;采用凝聚式层次聚类算法对突发词进行聚类得到突发事件检测结果。实验得出,突发事件检测准确率可达0.836 1,召回率可达0.879 3,表明该方法能够有效检测出微博中的突发事件。
-
-
-
赵丹;
刘建国;
陈曼倩
-
-
摘要:
数据挖掘技术的应用价值被深入挖掘,其可以实现大规模信息中的关键内容提取,有效捕捉隐含信息,掌握信息发展的基本趋势。在数据挖掘技术的辅助下,研究人员可以将特定关键词轻松挖掘出,并完成热点的捕捉和媒体动向的追踪,作用十分显著。文章分析数据挖掘技术的优势,从基于词频统计功能的文本分析、基于词表比对功能的信息挖掘、基于词语共现网络功能完成热点事件抓取3个方面出发,分析了基于数据挖掘的文本分析应用,以供参考。
-
-
吴洁;
桂亮;
刘鹏
-
-
摘要:
[研究目的]高质量专利对促进专利转化、技术追踪和战略布局十分重要,面对海量专利数据,如何准确高效自动识别高质量专利,为开展后续专利投资融资、产业转型等专利工作做基础铺垫,成为当前重要研究问题。[研究方法]以国家知识产权局受理的申请专利为研究对象,使用专利维持年限表征专利质量,提取专利数字特征并嵌入专利文本特征生成的专利-核心词汇网络,搭建图卷积网络模型自动识别高质量专利。[研究结论]目前针对专利质量的研究专注于挖掘专利数字特征而忽视专利文本特征,该方案在高质量专利自动识别过程中使用专利数字特征与文本特征,对当前专利质量研究做出补充。此外,所提方案可在专家标注少量专利文档情况下完成专利质量识别任务,解决现有专利质量标签标注方案无法全面衡量专利质量的局限。同时,将图卷积网络扩展到专利背景下的质量识别领域,为专利质量研究提供崭新框架,实验结果也显示方案具有较高实践价值。
-
-
孙雯;
魏金美
-
-
摘要:
随着中日交流发展逐步密切,目的论在日语新闻汉化翻译的过程中起到了至关重要的作用,本文以日本新闻报道的汉译为例,基于目的论的目的性、忠实性、连贯性原则,结合日语新闻翻译特点,探讨了日语新闻的翻译策略。为保证译文准确、通顺,可运用加译、减译、分译、句式转化等技巧翻译新闻原文,并且可以通过注意细节、优化译文结构等策略进一步提高译文质量。
-
-
康雁;
吴志伟;
寇勇奇;
张兰;
谢思宇;
李浩
-
-
摘要:
随着软件数量和种类的快速增长,有效地挖掘软件需求的文本特征,并对软件功能性需求的文本特征进行分类,成为软件工程领域的一大挑战。软件功能性需求分类为整个软件开发过程提供了可靠的保障,并减小了需求分析阶段潜在的风险和负面影响。但是,软件需求文本的高分散性、高噪声、数据稀疏等特点限制了软件需求分析的有效性。提出双层词汇图卷积网络模型,创新性地对软件需求文本进行图建模,建立软件需求的图神经网络,有效捕获单词的知识边以及单词与文本之间的关系;并提出深度集成学习模型,集成多个深度学习分类模型,对软件需求文本进行分类。在数据集Windows_a和数据集Windows_b的实验中,融合Bert和图卷积的深度集成学习模型的准确率分别达到96.73%和95.60%,其明显优于其他文本分类模型,充分证明融合Bert和图卷积的深度集成学习模型能有效判别软件需求文本的功能特性,提高软件需求文本分类的准确性。
-
-
-
陈文斌
- 《中国现当代文学研究生工作坊第一届学术研讨会》
| 2017年
-
摘要:
围绕着“非虚构”的争议是由各类概念界定模糊引起的,厘清真实、虚构与非虚构的关系将能明晰“非虚构文学”这一概念.以《瞻对》为对象文本,借助于广义叙述学中的双重区隔理论,可知“非虚构文学”兼容一度区隔内的纪实与二度区隔内的虚构.从历史和文学两个层面辨析《瞻对》的文本特征:历史层面两个区隔争夺话语权,文学层面两个区隔彼此协调从而凸显文学性.《瞻对》为“非虚构文学”的存在和继续发展提供了创建,同时也暗藏着可能的缺失.
-
-
-
陈莉
- 《中文古籍整理与版本目录学国际学术研讨会》
| 2016年
-
摘要:
域外汉籍研究是学术界热门的学术研究之一,域外汉籍之价值越来越得以彰显,对于"域外汉籍"的定义,学术界认为包括三个方面:第一,历史上域外文人用汉字书写的典籍,这些人包括朝鲜半岛、越南、日本、疏球、马来半岛等地的文人,以及十七世纪以来欧美的传教士;第二,中国典籍的域外刊本或抄本,比如大量现存的中国古籍的和刻本、朝鲜本、越南本等,以及许多域外人士对中国古籍的选本、注本和评本;第三,流失在域外的中国古籍(包括残卷).以广东地区参加全国古籍普查的94个单位为考察对象,对其所藏域外汉籍进行了整理和研究,以飨同好。中山大学图书馆对该馆所藏的域外汉籍中挑选了五十七种,与西南师大出版社合作,进行全文影印出版,同时,对于每一种汉籍也撰写了相应在书志,最后出版了《中山大学图书馆藏域外汉籍珍本丛刊》。这些书志全面的揭示了每种汉籍的文本特征和学术价值,无论从汉籍版本特征的客观著录,还是序跋重要内容的摘录,以及学术价值的甄别与评价,都是为域外汉籍研究者提供了研究平台,为其深入研究这批域外汉籍提供资料借鉴。全文的影印出版,更是为域外汉籍者提供了第一手的基础材料,大大方便其利用。
-
-
-
TONG Wei;
童薇;
CHEN Wei;
陈威;
MENG Xiaofeng;
孟小峰
- 《第29届中国数据库学术会议》
| 2012年
-
摘要:
微博数据具有实时动态特性,人们通过分析微博数据可以检测现实生活中的事件.同时,微博数据的海量、短文本和丰富的社交关系等特性也为事件检测带来了新的挑战.综合考虑了微博数据的文本特征(转帖、评论、内嵌链接、用户标签hashtag、命名实体等)、语义特征、时序特性和社交关系特性,提出了一种有效的基于微博数据的事件检测算法(EDM).还提出了一种通过提取事件关键要素,即关键词、命名实体、发帖时间和用户情感倾向性,构成事件摘要的方法。与基于LDA模型的事件检测算法进行实验对比,结果表明,EDM算法能够取得更好的事件检测效果,并且能够提供更直观可读的事件摘要。
-
-
王胜源
- 《2015年中国科技传播论坛》
| 2015年
-
摘要:
近年来,网站、搜索引擎、微博、微信等新媒体逐渐成为公众荻取健康信息的重要渠道.同时,新媒体平台也充斥着许多无益甚至有害公众健康的"伪健康信息".文章从厘清"伪健康信息"这一概念入手,选取果壳网"流言百科"证伪的442条医学健康类信息作为分析样本,总结了新媒体背景下伪健康信息在议题、文本以及传播渠道等方面的特征,并从传播学角度提出了积极搭建新媒体平台,提高科学健康信息传播的有效性;以公众需求为导向,建设伪健康信息的举报和辟谣平台的针对性的冶理对策.
-
-
王胜源
- 《2015年中国科技传播论坛》
| 2015年
-
摘要:
近年来,网站、搜索引擎、微博、微信等新媒体逐渐成为公众荻取健康信息的重要渠道.同时,新媒体平台也充斥着许多无益甚至有害公众健康的"伪健康信息".文章从厘清"伪健康信息"这一概念入手,选取果壳网"流言百科"证伪的442条医学健康类信息作为分析样本,总结了新媒体背景下伪健康信息在议题、文本以及传播渠道等方面的特征,并从传播学角度提出了积极搭建新媒体平台,提高科学健康信息传播的有效性;以公众需求为导向,建设伪健康信息的举报和辟谣平台的针对性的冶理对策.
-
-
王胜源
- 《2015年中国科技传播论坛》
| 2015年
-
摘要:
近年来,网站、搜索引擎、微博、微信等新媒体逐渐成为公众荻取健康信息的重要渠道.同时,新媒体平台也充斥着许多无益甚至有害公众健康的"伪健康信息".文章从厘清"伪健康信息"这一概念入手,选取果壳网"流言百科"证伪的442条医学健康类信息作为分析样本,总结了新媒体背景下伪健康信息在议题、文本以及传播渠道等方面的特征,并从传播学角度提出了积极搭建新媒体平台,提高科学健康信息传播的有效性;以公众需求为导向,建设伪健康信息的举报和辟谣平台的针对性的冶理对策.
-
-
王胜源
- 《2015年中国科技传播论坛》
| 2015年
-
摘要:
近年来,网站、搜索引擎、微博、微信等新媒体逐渐成为公众荻取健康信息的重要渠道.同时,新媒体平台也充斥着许多无益甚至有害公众健康的"伪健康信息".文章从厘清"伪健康信息"这一概念入手,选取果壳网"流言百科"证伪的442条医学健康类信息作为分析样本,总结了新媒体背景下伪健康信息在议题、文本以及传播渠道等方面的特征,并从传播学角度提出了积极搭建新媒体平台,提高科学健康信息传播的有效性;以公众需求为导向,建设伪健康信息的举报和辟谣平台的针对性的冶理对策.