特征扩展
特征扩展的相关文献在2002年到2022年内共计104篇,主要集中在自动化技术、计算机技术、科学、科学研究、无线电电子学、电信技术
等领域,其中期刊论文66篇、会议论文2篇、专利文献90124篇;相关期刊43种,包括现代情报、现代图书情报技术、计算机工程等;
相关会议2种,包括第33届中国数据库学术会议(NDBC2016 )、第四届全国信息检索与内容安全学术会议等;特征扩展的相关文献由267位作者贡献,包括李湘东、樊兴华、刘怀亮等。
特征扩展—发文量
专利文献>
论文:90124篇
占比:99.92%
总计:90192篇
特征扩展
-研究学者
- 李湘东
- 樊兴华
- 刘怀亮
- 岑明
- 张灵
- 欧阳元新
- 熊璋
- 王细薇
- 罗建辉
- 胡学钢
- 谈奔
- 黄梦婷
- 黎城
- 丁丛
- 余正涛
- 刘均
- 刘坤
- 刘康
- 刘志
- 刘文琦
- 刘端阳
- 卢俊宇
- 史蒂文·R·多诺万
- 叶涛
- 吴伟
- 吴科炜
- 吴蓓
- 周洋平
- 周翔翔
- 唐晓波
- 孙辉
- 张建伟
- 张淼
- 张雷
- 徐永峰
- 徐鸣
- 戴恒宇
- 朱学峰
- 朱李楠
- 李培培
- 李灏
- 李维华
- 李翠平
- 杨曦
- 林建武
- 沈国江
- 沈毅
- 王东
- 王崇骏
- 王晓涵
-
-
李艳红;
谢梦娜;
王素格;
李德玉
-
-
摘要:
随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection,FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection,T-TD)和基于突发词的话题检测(Burst words-based topic detection,BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。
-
-
刘亮;
赵倩崇;
郑荣锋;
田智毅;
孙思琦
-
-
摘要:
针对传统的IDS规则更新方法基本只能提取已知攻击行为的特征,或者在原有特征的基础上寻找最佳的一般表达式,无法针对当前发生的热点网络安全事件做出及时更新,提出基于威胁情报的自动生成入侵检测规则方法。文章分类模块使用Word2Vec进行特征提取,利用AdaBoost算法训练文章分类模型获取威胁情报文本;定位IoC所在的段落并使用条件共现度算法进行特征扩展和子文档重构,使用深度学习算法ResLCNN提取文章中的IoC数据;将所提取的IoC数据转化为入侵检测规则。通过对最新恶意代码流量数据进行测试,该方法对新发现的恶意代码的检测能力优于现有的入侵检测系统,能够提升计算机网络应对网络安全热点事件的能力。
-
-
章小卫;
耿宜帅;
李斌
-
-
摘要:
的特征表示,将其作为辅助信息构建推荐模型,再将辅助特征和用户-论文标签矩阵共同输入半自编码机模型进行训练,最终实现推荐任务.实验结果表明,相比自编码机等神经网络方法,该方法推荐的科研论文更为准确,可提高科研工作效率.
-
-
王钰;
刘磊
-
-
摘要:
针对现有网构软件测试数据分类模型存在的分类相似度较低与召回率较低的问题,提出基于特征扩展的网构软件测试数据分类模型.对需分类的数据进行数据预处理,生成若干个网构软件测试数据的待测文件后,构建基于特征扩展的网构软件测试数据分类模型,使网构软件测试数据可以用基于特征扩展的向量表示,从而根据数据特征进行数据分类和存储.利用概念树计算数据相应权值和其表达能力,具体到每个网构软件测试数据进行概念描述.实验结果表明,基于特征扩展的网构软件测试数据分类模型能够有效提高分类数据的相似度和召回率.
-
-
张兵磊
-
-
摘要:
针对中文短文本词汇数量相对较少、特征稀疏、噪声多等特点,笔者提出一种基于TextRank和隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)的文本扩展方法.该方法首先通过TextRank算法从给定文本中获得各个候选的关键特征,然后利用LDA从给定文本中获取各个隐藏的主题特征,将概率超过或等于给定阈值的各个隐藏主题所对应的各个候选关键特征扩充到文本中进行文本扩展.
-
-
孔镇;
董育宁
-
-
摘要:
随着网络视频服务持续增长,为了更好地区分不同质量的视频服务和管理网络资源,提出了一种基于深度学习的网络流量细粒度分类方法.该方法设计了一种扩展流特征信息的表达方式,将更丰富的特征信息以图片形式表示出来,应用卷积神经网络对图片代表的流数据实现细粒度分类,且省去了特征设计和选择环节.通过对视频数据进行实验,分类准确率达到了93.6%,与文献方法相比,分类性能更好.同时,在其他数据集上的实验结果表明,对网络流量进行粗粒度分类同样能取得很好的分类结果.
-
-
刘硕;
王庚润;
李英乐;
郭程远
-
-
摘要:
随着信息技术的迅速发展,网络上产生了海量的中文短文本数据.利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点.中文短文本相较于长文本,存在字数少、歧义多、特征稀疏和信息不规范等特点,导致使用传统文本分类技术效果不佳.首先介绍中文短文本分类技术的研究现状;其次围绕中文短文本分类的基本流程和关键技术进行阐述,并对文本预处理、文本表示、特征扩展和分类算法做出详细介绍;最后对中文短文本分类技术未来发展的趋势进行展望.
-
-
丁勇;
程家桥;
蒋翠清;
王钊
-
-
摘要:
比较文本对于企业竞争产品分析至关重要,但目前面向问答领域的比较文本分类研究较少.针对问答文本中比较信息丰富、主题集中的特点,提出了基于主题特征和关键词特征扩展的比较文本分类方法.通过预训练主题模型,推断问答文本的主题概率分布作为其主题特征;针对向量拼接、求和导致关键词信息流失的问题,设计GRU自编码器实现关键词向量特征提取.综合文本主题信息和关键词语义,从语言、产品、情感、社交、主题、关键词角度构建比较文本分类特征,最后使用多种分类器对问答文本进行分类.实验结果表明,构建的特征行之有效,比较文本分类效果较好.
-
-
-
唐晓波;
高和璇
-
-
摘要:
[目的]基于医疗问答社区中的健康问句数据,提出基于关键词词向量特征扩展的健康问句分类模型,提升健康问句的分类效率,帮助医疗问答社区提高患者使用满意度.[方法]分别使用TF-IDF和LDA提取关键词,使用Word2Vec对关键词进行词向量特征扩展,并将其应用于医疗问答社区中的健康问句分类.[结果]本模型可以有效地提升健康问句分类的效果.当关键词提取方式为TF-IDF、训练词向量的语料库为问答全集语料库、保留词典中词语数为600、语言模型为CBOW时,准确率、召回率、F值分别为0.987 2、0.972 5、0.979 8,分类效果最优.[局限]未在语义层面深度提取医学短文本关键词.[结论]基于关键词词向量特征扩展的健康问句分类模型在健康问句分类方面与现有分类方法相比具有更好的分类效果.
-
-
WANG Wen;
王雯;
ZHAO Kankan;
赵衎衎;
LI Cuiping;
李翠平;
CHEN Hong;
陈红;
SUN Hui;
孙辉
- 《第33届中国数据库学术会议(NDBC2016 )》
| 2016年
-
摘要:
由于短文本字数少、数据量大导致实际短文本分类过程中面临特征维度高、特征稀疏、分类准确率差的问题.特征扩展为解决上述问题的有效方法,如主题模型、频繁模式挖掘等算法在特征扩展过程中被广泛研究与应用.但因短文本本身对分类效率要求较高,特征扩展方式使短文本分类过程面临更大的效率瓶颈.针对上述问题,综合考虑短文本分类准确率及效率提升,提出Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法,首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充,其次针对分类过程,提出基于距离选择的层叠支持向量机算法,最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率.实验结果显示,采用本文提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均约得到15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%.
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
作为一种自然语言处理应用,文本聚类具有高维和语义相关的特点,属于无监督的学习方法.但由于缺乏类别信息,成功应用于文本分类的有监督的特征选择方法很难直接应用于文本聚类.为了将语义信息用于文本聚类和有效地进行特征选择,本文提出了一种基于协同聚类的两阶段文本聚类方法.该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训练集进行协同聚类,第二阶段利用第一阶段的聚类结果进行有监督的特征选择,然后以所选特征对测试集进行协同聚类.实验结果表明,利用特征与主题之间的语义关联关系能有效地提高聚类效果.同时,通过两阶段聚类方式不仅能有效地进行特征选择,而且聚类效果得到很大提高.本文最后还利用特征之间的语义关联关系在进行特征选择之后进行特征扩展,使聚类效果得到了进一步的提高.