首页>中文会议>其他>第六届中国计算机学会大数据学术会议

第六届中国计算机学会大数据学术会议

召开年：
召开地：
出版时间： -

主办单位：

会议论文

热门论文

全部论文

全选（0）

1.基于Spark和SimHash的大数据K-近邻分类算法
- ZHANG Su-fang;张素芳;WANG Ting-ting;王婷婷;ZHAO Chun-ling;赵春玲;ZHAI Jun-hai;翟俊海
- 《第六届中国计算机学会大数据学术会议》
摘要：在之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第一次从磁盘读入内存,生成一种抽象的内存对象RDD(Resilient Distributed Datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.
2.稀疏数据频繁项集挖掘算法研究综述
- XIAO Wen;肖文;HU Juan;胡娟
- 《第六届中国计算机学会大数据学术会议》
摘要：频繁项集挖掘(Frequent Itemset Mining,FIM)是最重要的数据挖掘任务之一,被挖掘数据集的特征对FIM算法的性能有着显著影响.在大数据时代,稀疏是大数据的典型特征之一,对传统FIM算法的性能带来严峻挑战.针对在稀疏数据中如何高效进行FIM的问题,本文从稀疏数据的特征出发,分析了稀疏数据对三种类型FIM算法性能的主要影响,对已经提出的稀疏数据FIM算法进行了综述,对算法中采用的优化策略进行了讨论,最后通过实验对代表性的稀疏数据FIM算法进行了性能分析.实验结果表明,采用伪构造策略的模式增长算法最适合用于稀疏数据的FIM,该算法在运算时间和存储空间上比其他算法具有较大的优势.
3.大数据随机样本划分模型及相关分析计算技术
- Joshua Zhexue Huang;黄哲学;He Yulin;何玉林;Wei Chenghao;魏丞昊;Zhang Xiaoliang;张晓亮
- 《第六届中国计算机学会大数据学术会议》
摘要：本文设计了一种新的适用于大数据的管理和分析模型——大数据随机样本划分模型(Random Sample Partition模型,简称RSP模型),它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上.RSP的生成操作使每个RSP数据块的数据分布与大数据的分布保持统计一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型.基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力.本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的逼近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成、异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势.
4.融合语义与语法信息的中文评价对象提取
- Zhou Hao;周浩;Wang Li;王莉
- 《第六届中国计算机学会大数据学术会议》
摘要：评价对象提取是细粒度情感分析的关键一步.优质的提取结果对于口碑分析、辅助消费决策舆情等具有重要优质的提取结果对于口碑分析、辅助消费决策舆情等具有重要优质的提取结果对于口碑分析、辅助消费决策舆情等具有重要优质的提取结果对于口碑分析、辅助消费决策舆情等具有重要优质的提取结果对于口碑分析、辅助消费决策舆情等具有重要优质的提取结果对于口碑分析、辅助消费决策舆情等具有重要优质的提取结果对于口碑分析、辅助消费决策舆情等具有重要意义.但中文评论往包含多个价对象但中文评论往包含多个价对象,并且,并且由于错别字、由于错别字、输入无关信息等问题导致传统方法传统方法识别准确率低.针对这一问题,提出了一种融合语义与语法信息的评价对象取模型.该模型首先在原始字向量的基础上,通过优化字符含义策略增强了语义特征,弥补忽略的字符与词语间的内部信息.此外通过.此外通过词性序列标注方法,对评论中的信息进行了表征词性序列标注方法,对评论中的信息进行了表征词性序列标注方法,对评论中的信息进行了表征深化了输入的语法信息,然后语法信息,然后Bi-LSTMLSTMLSTMLSTM网络进行模型训练,最后辅网络进行模型训练,最后辅网络进行模型训练,最后辅网络进行模型训练,最后辅以CRFCRFCRF层克服标签的偏差问题,克服标签的偏差问题,最终提高了评价对象取的效果.在BDCI2017201720172017数据集上的实验结果表明,该模型与其他方法相比与其他方法相比主题词与情感词准确率分别达到了77.51％与88.738.738.738.73％,联合提取的准确率达到了77.16％,可以较好的识别出在中文评论价对象.可以较好的识别出在中文评论价对象.
5.基于Spark与粒子滤波算法的公交到站时间预测系统的研究与实现
- Liu Jing;刘靖;Song Li;宋利;Ma Xuebin;马学彬;Xiao Guanfeng;肖冠烽
- 《第六届中国计算机学会大数据学术会议》
摘要：公交车到站时间预测是城市交通研究领域中的热点,对改善公共交通服务具有重要意义.针对公交车到站时间预测准确性问题,选用具有流式计算特点的粒子滤波算法,建立了一个公交到站时间预测模型.为更好的解决使用粒子滤波算法过程中存在的预测误差及粒子优化选择问题,通过引入最近上一趟公交车的行驶速度和构造观测值的方法,对预测模型进行改进,使之具有更贴近实际路况的公交到站时间预测精度,并且能同时预测多个公交到达时间.基于该模型和Spark平台实现一套公交到站时间实时预测软件系统,实验结果表明,所提模型及实现系统准确预测公交到站时间,满足乘客实际需求.
6.防霾大数据与新型教室除器试点
- Liu Bo;刘波;黄旭楠;Huang Xunan;Hao Jiaxue;郝嘉雪;Xu Wenhua;徐文华;Zhang Hongliang;张宏亮;Wang Guohua;王国华;Miao Qiguang;苗启广;郑晓静;Zheng Xiaojing;Jia Guang;贾广
- 《第六届中国计算机学会大数据学术会议》
摘要：每年秋冬季节,也是中国北方大部分城市的雾霾多发季节,而且随着最近几年城市私家车保有量的提升以及冬季取暖等其它污染源的增加,雾霾呈现出越来越严重的态势,严重影响人们的生活和健康.当前对于雾霾的主要防治措施主要为污染源的治理和生活办公区域的空气净化.该文设计出一种新型的“负离子雾霾收集器”,该设备充分利用电子流动裹着雾霾颗粒除霾,纯物理过程,非常安全,利用电子流动裹着雾霾颗粒除霾,纯物理过程,非常安全,该设备不需要风机,所以噪音特别小.将该设备试点运行在西安电子科技大学附属小学的3个教室里,连续采集2017年月到2018年1月共计4个月的教室空气质量数据,在此数据基础上,对于每天的空气数据进行分析.后期通过大量除霾模块的部署,产生的实时以及历史雾霾大数据,并期望找出空气雾霾与季节时间的潜在规律.
7.基于Attention Mechanism的问句实体链接
- REN Chaogan;任朝淦;YANG Yan;杨燕;JIA Zhen;贾真;TANG Huijia;唐慧佳;YU Xiuying;喻琇瑛
- 《第六届中国计算机学会大数据学术会议》
摘要：问句实体链接是问答系统的重要步骤之一,传统的方法都是先识别出问句中的命名实体,然后再链接到知识库,这需要大量的数据处理和特征选择工作,而且容易造成错误累积,降低链接效果.针对这种情况,本文提出基于注意力机制的编码器—解码器实体链接模型AMEDEL.该模型使用双向的长短期记忆网络对问句进行编码,经过注意力机制解码,生成对应的实体指称和消歧信息输出,最后再链接到知识库实体.在有关汽车领域车系产品问句和实体的数据集上进行实验,结果表明本文提出的模型仅利用很少的上下文信息便取得良好的效果,为实体链接提供了新的思路.
8.基于数据分布的标签噪声过滤方法
- Chen Qingqing;陈庆强;Wang Wenjian;王文剑;Jiang Gaoxia;姜高霞
- 《第六届中国计算机学会大数据学术会议》
摘要：在监督学习中,标签噪声对模型建立有较大的影响.目前对于标签噪声的处理方法主要有基于模型预测的过滤方法和鲁棒性建模方法,然而这些方法要么过滤效果不好,要么过滤效率不高.针对该问题,本文提出一种基于数据分布的标签噪声过滤方法.首先对于数据集中的每一个样本,根据其近邻内样本的分布,将其及邻域样本形成的区域划分为高密度区域和低密度区域,然后针对不同的区域采用不同的噪声过滤规则进行过滤.与已有方法相比,本文从数据分布角度出发,使得噪声过滤更具有针对性从而提高过滤效果;另外本文使用过滤规则对噪声数据进行处理而非建立噪声预测模型,因而可以提高过滤效率.在15个UCI标准多分类数据集上的实验结果表明,本文提出的方法在噪声低于30％时,噪声检测效率和分类精度均有很好的表现.
9.大规模序列分析框架的研究与实现
- TENG Fei;滕飞;HUANG Qi-Chuan;黄齐川;LI Tian-Rui;李天瑞;WANG Chen;王晨;TIAN Chunhua;田春华
- 《第六届中国计算机学会大数据学术会议》
摘要：由工业设备产生、采集和处理的数据大多是时间序列、空间序列、高维矩阵等非结构化数据.目前单机分析环境如R、Matlab等提供了优质丰富的算法库,但随着数据生成速度和规模的不断升级,上述工具在处理大规模序列和矩阵运算时呈现低效甚至失效的现象.针对可处理数据规模和算法可移植性问题,本文设计了一种大规模时间序列分析框架LTSAF(Large-scale Time Series Analysis Framework).基于分治原理,该框架创新地提出近似解方案,在无法有效获得精确解的情况下采用数据并行的计算方式求取近似解.建立了时空代价优化模型,求解得到序列的最优分段长度,以达到计算结果的有效性与计算开销的均衡.在Spark平台下实现了序列分析原型系统,采用跨语言、跨平台的方式集成了第三方算法库.实验结果表明,该系统在保证分析结果正确性的基础上,序列分析的处理速度和规模呈线性增长.同时,该系统易于集成与扩展,使数据分析人员免于算法重复开发,聚焦于分析任务本身.
10.中国动漫品牌个性维度研究——以豆瓣电影网国产动漫影视短评数据为例
- Jiang Nan;姜楠;Cao Shuyan;曹淑艳;Zhang Li;张莉
- 《第六届中国计算机学会大数据学术会议》
摘要：将豆瓣短评内容作为分析样本,从用户在线评论数据中挖掘用户喜好,探索适用于中国动漫品牌个性维度研究中各维度权重大小的评价方法,以助于中国动漫企业发现品牌个性维度构建中的不足之处.首先以前人构建好的中国本土品牌个性维度模型“仁、智、勇、乐、雅”作为研究基础,通过《同义词词林》词典对基础特征词进行拓展.其次对样本进行数据预处理,各维度对应的特征词语词频统计与归一化处理,然后运用熵权法计算各品牌个性维度的权重值.最后采用基于情感词典的情感分析方法获取用户对动漫作品的好评率,将好评率排名作为评价标准,对熵权法获取的权重值的有效性进行验证.
11.一种基于极大极小关联密度的多目标微分进化算法
- TANG Kezong;汤可宗;Liu Bingxiang;柳炳祥;Cai Huahui;蔡华辉;Li Fang;李芳
- 《第六届中国计算机学会大数据学术会议》
摘要：微分进化(DE)是一种基于种群的简单有效的全局优化方法,已在多目标优化领域得到了广泛关注.本文提出一种基于极大极小关联密度的多目标微分进化(MODEMCD)算法.新算法定义了极大极小关联密度,在严格遵守Pareto支配规则基础上,给出了基于极大极小关联密度的外部档案集维护方法,从而避免或减少最终解集的多样性损失.此外,设计了一种自适应选择策略,该策略通过评价个体的关联密度来指导个体优劣的选择过程,在确保最优个体进入下一代种群的同时,尽可能使个体的选择覆盖在更广泛的搜索空间.对一组给定测试问题的实验结果显示,新算法在GD和SP性能指标有更好的表现,具有更优的Pareto前沿分布性与收敛性.
12.网络空间态势信息的特点及其知识表示方法研究
- Du Jing;杜静;Ao Fujiang;敖富江;Li Pengfei;李鹏飞;MaHuihui;马慧慧
- 《第六届中国计算机学会大数据学术会议》
摘要：网络空间中具有纷繁复杂的多种态势要素、要素属性,以及要素之间的错综关系.对这些信息能否清晰准确地分析并描述,直接关系到所建立的网络空间可视化模型的准确性、完备性、有效性.本文采用知识表示方法,对网络空间中的关键态势信息要素进行描述,主要研究内容包括以下三个方面.首先分析了网络空间态势信息知识的特点,提出了对网络空间态势信息进行知识表示的重要作用.其次研究了基于本体的知识表示理论,分析了采用本体表示网络空间态势的动机.最后提出了基于本体的网络空间态势信息要素知识表示方法,并详细介绍了该方法的实现手段.本文的研究可以有效促进网络空间可视化建模的重用与互操作,为网络空间相关技术的研究提供有效的参考依据.
13.基于迁移学习的电力通信网异常站点业务数量预测
- JIHAI YANG;杨济海;HAOHAO LI;李号号;XIDAN PENG;彭汐单;ZHICHENG ZHANG;张智成;QIAN HUANG;黄倩;SHIJUN LI;李石君
- 《第六届中国计算机学会大数据学术会议》
摘要：现有的多源迁移学习算法对回归问题的研究极少,大多是解决对称的二分类问题,本文提出了加权多源TrAdaBoost的回归算法,其中误差容忍系数能一定程度解决源领域样本权重缩减过快的问题,提高了算法的效果.在修改后的Friedman#1回归问题上进行了实验,验证了该算法的有效性,误差容忍系数可以提高大约0.01的R2分数.将该算法应用到电力通信网的行业问题中,提出了异常站点(业务数量缺失严重的站点)检测与真值预测模型,在特征工程中使用了社交网络分析的方法,充分考虑了站点在拓扑图中的重要度.最终的实验效果进一步验证了算法的有效性.
14.面向新浪微博的情感社区检测算法
- Han Donghong;韩东红;Zhang Hongliang;张宏亮;Zhu Shuaiwei;朱帅伟;Wang Guoren;王国仁
- 《第六届中国计算机学会大数据学术会议》
摘要：社交网络的蓬勃发展彻底改变了人们的社交行为,也促进了交叉学科的研究.在社交网络中挖掘情感社区,可应用于公共健康、舆情监测等领域.本文作为首个面向中文社交网络进行情感社区检测的研究,以新浪微博为平台建立一种情感社群检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的分类模型SL-SE-NB(Naive Bayes Based Semi-lexicon and Semi-emoji)以实现对文本的情感极性预测;提出一种基于LDA话题模型的UTK(User-Topic-Keywords)模型抽取用户话题;基于LPA算法并加入话题概念,提出情感社区发现SMB-LPA(Label Propagation Algorithm Based Seeds and Min-Edge Betweenness)算法.最后通过实验验证了所提出算法的有效性和高效性.
15.一种建模社交化点过程序列预测算法
- Jiang Haiyang;江海洋;Wang Li;王莉
- 《第六届中国计算机学会大数据学术会议》
摘要：根据序列数据预测下次事件类型和时间是一个值得研究的课题.目前点过程强度函数算法仅从时间维度考虑背景知识和历史影响两个方面,没有从空间维度加入社交关系的影响.针对该问题,该文提出基于时空深度网络的社交化点过程的序列预测算法(SPSP算法).该模型首先运用双LSTM(Long Short-Term Memory)分别建模强度函数的背景知识和历史影响;然后经过联合层将双LSTM输出合并,生成事件类型和时间向量表征;最后在空间维度上加入社交关系网络影响,优化强度函数.通过深度时空社交网络的多次训练,得到最优网络模型.该文使用新浪微博数据集验证算法有效性,经实验证明社交化点过程序列预测算法可高效准确预测出事件类型与时间.
16.基于近似牛顿法的分布式卷积神经网络训练
- WANG Ya-Hui;王雅慧;LIU Bo;刘博;YUAN Xiao-Tong;袁晓彤
- 《第六届中国计算机学会大数据学术会议》
摘要：大多数机器学习问题可以最终归结为最优化问题(模型学习).它主要运用数学方法研究各种问题的优化途径及方案,在科学计算和工程分析中起着越来越重要的作用.随着深度网络的快速发展,数据和参数规模也日益增长.尽管近些年来GPU硬件、网络架构和训练方法均取得了重大的进步,但单一计算机仍然很难在大型数据集上高效训练深度网络模型,分布式近似牛顿法作为解决这一问题的有效方法之一被引入到分布式神经网络的研究中.分布式近似牛顿类方法将总体样本平均分布至多台计算机,减少了每台计算机所需处理的数据量,计算机之间互相通信共同协作完成训练任务.文中提出了基于近似牛顿法的分布式深度学习,在相同的网络中利用DANE算法训练,随着GPU数目增加,训练时间明显缩短.这与我们的最终目的一致,即在保证估计精度的前提下,利用现有分布式框架实现近似牛顿类算法,用算法分布式训练神经网络,提升运行效率.
17.面向搜索的微博短文本语义建模方法
- KOU Fei-Fei;寇菲菲;DU Jun-Ping;杜军平;SHI Yan-Song;石岩松;YANG Cong-Xian;杨从先;CUI Wan-Qiu;崔婉秋;LIANG Mei-Yu;梁美玉;SHI Lei;石磊
- 《第六届中国计算机学会大数据学术会议》
摘要：微博中包含大量具有时间、用户等信息的短文本数据,通过挖掘其语义信息来实现精准搜索已受到广泛关注.将传统的主题模型应用于微博短文本语义建模时通常会存在以下问题.一方面,微博的短文本会引起语义稀疏性;另一方面,由于传统的主题模型仅建模文档之间的信息,不能充分挖掘文档内部的上下文信息,因此其仅能捕获全局语义.针对以上问题,文中提出了面向搜索的微博短文本语义建模方法.该方法包含两部分,基于词向量的短文本扩展算法和基于扩展的微博主题模型.所提扩展算法以具有局部语义的词向量为基础,通过计算单词间相似度对微博短文本进行扩展,以此缓解短文本语义稀疏性并实现局部语义与全局语义的相互补充.所提主题模型以扩展后的长文本作为输入,通过建模双词进一步克服语义稀疏性,并同时利用微博多种特征(文本、时间、用户信息)来约束主题的生成过程从而提高短文本语义表示的质量.文章在真实的新浪微博数据集上进行了多组实验,对所提语义建模方法得到的语义表示进行了分析与评价并将其应用于微博搜索,实验结果验证了所提方法的有效性.
18.位置隐私泄露的一种度量方法
- CHEN Jiaming;陈家明;DING Tingting;丁婷婷;FANG Xianjin;方贤进
- 《第六届中国计算机学会大数据学术会议》
摘要：现有的文献大多是对位置隐私保护算法的研究,对于位置隐私保护算法的隐私性度量的研究相对缺乏.为此,文中以贪心法的位置K-匿名算法(Greedy-based Location K-anonymous Algorithm,GLKA)为例,提出位置隐私泄露的度量方法.该方法以KL距离(Kullback-Leibler divergence)为基础,将攻击者的背景知识融入其中,用以度量匿名区域中用户位置隐私的泄露.仿真实验表明,该度量方法可以有效地度量攻击者在具有背景知识的情况下,用户位置隐私泄露的水平,从而为位置隐私保护算法的设计与实现提供一定的参考.
19.一种半监督的微博话题噪声过滤方法
- TU Shouzhong;屠守中;YANG Jing;杨婧;ZHAO Lin;赵林;ZHU Xiaoyan;朱小燕
- 《第六届中国计算机学会大数据学术会议》
摘要：社交网络中存在大量营销、招聘等垃圾信息以及无实质内容的短文,为话题建模工作带来很多干扰,更严重影响社交网络方面的学术研究及商业应用.因此,本文提出一种基于SVM-kNN模型的半监督话题噪声过滤方法.该方法融合了支持向量机(Support Vector Machines,SVM)和k近邻(k-Nearest Neighbor,k-NN)算法,在SVM计算得到超平面的基础上使用kNN算法在局部范围内迭代寻找分类超平面的最优解;同时为减少误分类发生,分别在SVM和kNN阶段引入惩罚代价和比例权重,以提高噪声过滤的效果.通过选取新浪微博中不同大小的数据集进行实验,结果与其它方法相比表明,本文提出的方法只利用了少量的标注样本进行训练,在准确率、召回率和F值方面均优于其他的对比方法.
20.异构社交网络用户兴趣挖掘方法研究
- TU Shou-Zhong;屠守中;YAN Zhou;闫洲;WEI Ling-Wei;卫玲蔚;ZHU Xiao-Yan;朱小燕
- 《第六届中国计算机学会大数据学术会议》
摘要：当前各类主流网络平台的发展呈现出“社交平台内容化、内容平台社交化”的趋势,用户分化也日趋明显,出现了拥有大规模粉丝的超级节点.内容和社交相结合、用户角色分化等异构(heterogeneous)化的特点使得传统社交网络分析方法遇到了挑战,针对这些特性,本文提出了一种基于社交关系的兴趣挖掘模型,结合矩阵分解和标签传播算法,将用户分为内容发布者和普通用户两类并分别提取和计算兴趣话题,实现了在大规模异构网络中发现、挖掘用户兴趣.基于知乎数据集上设计对比实验,验证了模型的有效性以及算法的性能优势,与基线方法相比,本文提出的算法在查全率上最大提升约42％,F1值最大提升约33％.
21.利用哈希索引的扩展置信规则库推理方法
- XIAO Chengzhi;肖承志;LIU Wanling;刘莞玲;Fu Yanggeng;傅仰耿
- 《第六届中国计算机学会大数据学术会议》
摘要：扩展置信规则库(Extended belief rule base,EBRB)在推理过程中需要遍历规则库中所有的无序规则,当规则库很大时EBRB系统的推理效率不高.鉴于此,本文提出使用局部敏感哈希(Locality Sensitive Hashing,LSH)算法对置信规则构建索引.首先用LSH算法为规则库中的所有规则生成特殊的局部敏感哈希值,该哈希值能尽量保持原始规则之间的相似度,因此相似的规则有较大的概率得到相同的索引值;然后通过对输入数据的处理,在索引表中找到与输入数据邻近的规则,并有选择地激活这些规则,从而提高该系统的组合推理效率.最后通过选用非线性函数拟合实验和输油管道的泄漏检测仿真实验对基于LSH索引的EBRB系统进行检测和验证,实验结果表明,LSH算法能够有效优化EBRB系统的推理效率并能够提高输出结果的准确率.
22.中文语境下的口令分析方法
- ZENG Jian-ping;曾剑平;CHEN Qi-le;陈其乐;WU Cheng-rong;吴承荣
- 《第六届中国计算机学会大数据学术会议》
摘要：现今的大部分网络信息系统均采用基于口令的用户身份鉴别方式,用户口令的安全性直接关系到个人信息的安全性.目前口令分析挖掘的研究主要针对英文使用习惯的口令,并且也局限在一些常见的单词或姓氏上.本文针对中文语境下,主要是古诗、成语在口令中的使用情况,基于口令字符串的数据分析技术,提出了一种基于已知口令元的中文语境口令分析方法.通过将识别出的已知口令元视作单个口令自由度,计算给定攻击成功率下的自由度攻击成本,得出口令安全性的量化数值.设计实验对大量明文口令进行量化分析之后,研究认为在使用中文语义的口令中,80％的用户口令不具有高安全性,能够被字典攻击轻易攻破.
23.面向网络流数据的多层次关联可视分析模型
- Quan Feng-Lei;权丰雷;Guo Ling-Yun;郭玲云;Lu Meng-Juan;陆梦娟;Liu Shuang-Gen;刘双根;Miao Qi-Guang;苗启广
- 《第六届中国计算机学会大数据学术会议》
摘要：网络流数据是分析人员对网络运行状况进行评判的重要依据,但网络流数据的数据量庞大、数据维度较多以及分析层次多样会给分析人员带来认知困难,因此针对网络流数据的多层次性、主机关联性以及多元时变性等特征,提出多层次关联可视分析模型.该模型针对多层次性和主机关联性特征分别设计了宏观-中观-微观的多层次分析以及关联分析,实现了由整体到局部、由局部到个体以及由点到面的可视分析.根据上述模型并结合网络流数据的多元时变性特征,对视觉编码以及视图布局等进行详细设计与改进,提供了可视化设计需要的分析对象、分析流程以及目标输出等内容,实现了网络流数据可视分析系统.经过权威性的VAST挑战赛数据集对系统进行案例评估,验证了该系统在网络流数据可视分析中的有效性以及实用性.
24.一种基于快递大数据的异常检测系统
- Zhang Man;张曼;Yu Zhiwen;於志文;Guo Bin;郭斌;Ren Siyuan;任思源;Yue Chaogang;岳超刚
- 《第六届中国计算机学会大数据学术会议》
摘要：随着信息时代的到来,快递行业迅速发展起来,推动着流通方式的转型和消费升级.人们在享受快递业发展带来巨大便捷的同时,也伴随着难以控制的流动性风险,给公共安全带来严峻的挑战.例如,偷窃的赃物通过快递方式进行销赃,利用快递方式运输毒品、爆炸物等危险物品.基于以上考虑,本文通过分析真实的历史快递记录,着力于研究利用快递方式进行销赃这一类犯罪行为,进而以识别该类嫌疑人为研究目标,从统计、时间和地理三方面特征进行了详细的分析.另外,本文提出了一种Two-Step异常检测方法用于嫌疑人的识别.该方法分为两步,第一步是过滤正常用户,第二步是识别嫌疑人.实验结果表明,通过该方法能够准确的识别出嫌疑对象,相比较传统方法,该方法能够有效地得解决正负类数据不平衡问题,并且能够有效地降低误检率,因此具有较高的实用价值.
25.恶意URL近实时检测分析近实时检测分析
- Wang Chao;王超;Tao LinHu;陶琳湖;Zhang Wenxiao;张文肖;Wang Xing;王惺;Zhang Rui;张睿;Quan Yining;权义宁;Miao Qiguang;苗启广
- 《第六届中国计算机学会大数据学术会议》
摘要：互联网逐步融入人们日常生活的各个领域,基于URL的窃取用户信息及互联网金融账户等恶意URL开始成为了一大安全隐患,已有的传统基于黑名单的恶意URL的检测方法,不能解决海量网络流数据中恶意URL的检测问题,使用离线机器学习的检测恶意URL方式的时效性不强,不能很好地及时对恶意URL进行检测.本文采用在线学习算法训练恶意URL检测模型,充分利用了在线学习算法的模型更新效率高、以及可以利用有限的计算机资源实现对无界数据处理的特点,结合流式计算框架实现了对恶意URL的近实时检测系统的设计.本文通过对恶意URL的特征提取,并通过流式计算框架,实现了对URL数据的近实时收集,并通过在线学习算法自适应权重调整算法(Adaptive Regularzaton of Weights),实现了对恶意URL的检测.本文给出了大规模恶意URL近实时检测系统的架构,以及检测流程的介绍,并通过检索引擎Elasticsearch实现了海量网络流数据的检索分析.最后通过实际验证,表明该系统可以有效地实现对海量恶意URL近实时的检测,对于海量网络流数据中恶意URL的近实时检测,以及及时对检测出的恶意URL进行控制,在安全研究方面具有较大的应用意义.
26.基于One-Class SVM的相似重复记录检测
- Lv Guojun;吕国俊;Cao Jianjun;曹建军;Zheng Qibing;郑奇斌;Weng Nianfeng;翁年凤;Peng Cong;彭琮
- 《第六届中国计算机学会大数据学术会议》
摘要：为实现相似重复记录检测,提出一种基于One-Class SVM的分类检测方法.针对数据源中相似重复记录样本稀少的特点,将相似重复记录的检测建模为单分类问题;针对单一数据源的情况,根据记录中不同属性特征的类型不同,定义了字符串型、枚举型、连续型三种属性之间的相似性度量方法,将记录对之间的相似特征向量作为One-Class SVM分类器的输入进行检测;建立了以召回率、准确率、特征数量为目标的多目标特征选择优化模型,通过加权的方式将其转化为单目标,应用蚁群算法进行求解.实验结果通过将One-Class SVM和SVDD以及传统二分类SVM算法进行对比,突出该算法的有效性和实用性.
27.面向绿色数据中心的能耗有效查询优化技术研究
- LV Mengyuan;吕梦圆;JIN Peiquan;金培权;XING Baoping;刑宝平;YUE Lihua;岳丽华
- 《第六届中国计算机学会大数据学术会议》
摘要：降低能耗开销、建设绿色数据中心,已经成为目前大规模数据中心的重要需求.在绿色数据中心中,如何使数据库系统在满足性能需求的前提下尽量地节约能耗,即如何提高数据库系统的能耗有效性,是目前研究的重点.数据库系统中的能耗有效性旨在使用更少的电能来提供相同的服务,例如:处理的事务数量、响应的I/O请求数量等等.能耗有效性越高,说明数据库系统可以用更少的能耗就能够响应同样数量的操作,换句话说,可以用更少的能耗达到同样的性能.本文提出了一种面向绿色数据中心的能耗有效查询优化方法.该方法首先利用回归分析建立操作符层的功耗预测模型,从而可以准确地预测给定查询在执行过程中平均功耗.接着,在PostgreSQL查询优化器中扩充了结合预测能耗成本和时间成本的新的查询执行代价计算模型,并引入性能退化度因子调节性能和能耗的权重.构建了数据库系统能耗测试平台,在PostgreSQL上基于TPC-H和TPC-C基准测试进行了实验.结果表明,本文所提出的功耗预测模型比已有方法准确度更高.同时,提出的性能退化度因子为数据库系统提供了性能和能耗之间的灵活折衷方案,并且通过设置适当的性能退化度因子,可以实现比原始PostgreSQL更高的能耗有效性.
28.一种服务器集群能耗同比性控制策略
- ZHANG Zhou;张洲;JIN Peiquan;金培权;LV Mengyuan;吕梦圆;JIN Yong;金勇
- 《第六届中国计算机学会大数据学术会议》
摘要：数据中心数量与规模的不断扩大使得其能耗开销也快速上升,由于数据中心并不是持续处于高负载状态,因此研究者提出了“能耗同比性”设想,即系统的能耗可随着负载变化而动态调整.但是,如何实现服务器集群的能耗同比性还是一个未决问题.本文针对性地提出了一种基于负载预测的服务器集群能耗同比性控制方法.在一个时间窗口内采样服务器集群负载信息,然后通过时间线性序列拟合算法找出负载变化的关键点,并使用最小二乘法对关键点进行线性拟合,然后根据拟合结果以及当前负载信息来预测下一个时间窗口的服务器集群负载情况,进而改变服务器的电源调度策略,实现服务器集群的能耗同比性.构建了一个模拟服务器集群负载变化和能耗同比控制的原型系统进行性能测试.在10个节点组成的仿真环境测试结果表明,我们的方法相对于无节能措施下的服务器集群在能耗和性能方面均取得了明显的改进.
29.一种鲁棒的半监督多标签特征选择方法
- Yan Fei;严菲;WANG Xiaodong;王晓栋;曾志强
- 《第六届中国计算机学会大数据学术会议》
摘要：针对现有的半监督多标签特征选择方法利用l2-范数建立谱图易受到噪声影响的问题,本文提出一种基于l1图的半监督多标签特征选择方法,利用全局线性回归函数建立多标签特征选择模型,结合l1图获取局部描述信息,引入l2,1约束提升特征之间可区分度和回归分析的稳定性,避免噪声干扰.最后通过实验验证文中方法的有效性.
30.一种无代理虚拟机进程监控方法
- Yin Xueyuan;尹学渊;Chen Xingshu;陈兴蜀;Tao Shusong;陶术松;Chen Lin;陈林
- 《第六届中国计算机学会大数据学术会议》
摘要：针对云环境下的租户虚拟机状态监控问题,提出了一种基于虚拟机内存实时在线分析的虚拟机监控技术.借助虚拟化层的高特权级,可以在虚拟机外部透明地实时获取虚拟机物理内存.引入内存取证领域的物理内存解析机制,在虚拟化层在线地分析虚拟机内存中重要的内核数据结构,从而获取虚拟机内存语义知识,有效地解决虚拟机与虚拟化层之间的语义鸿沟问题,实现虚拟机细粒度状态信息监控.由于监控代码处于更高特权级的虚拟化层,无需在用户虚拟机中部署监控代理,因此,虚拟机内部的恶意代码无法旁路和破坏安全监控代码,提高了方法的透明性和安全性.实践表明,该方法可以在低开销下以无监控代理模式为租户提供虚拟机监控服务.
31.结合谱聚类的标记分布学习
- WANG Yibin;王一宾;LI Tianli;李田力;CHENG Yusheng;程玉胜
- 《第六届中国计算机学会大数据学术会议》
摘要：标记分布是一种新的学习范式,现有算法均直接利用条件概率建立参数模型,但大多数未充分考虑样本之间的联系.基于此,引入谱聚类算法,通过样本之间相似性关系将聚类问题转化为图的全局最优划分问题,进而提出一种结合谱聚类的标记分布学习算法SC-LDL(Label Distribution Learning with Spectral Clustering).首先计算样本相似度矩阵,然后对矩阵进行拉普拉斯变换,构造特征向量空间,最后通过K-means算法对数据进行聚类建立参数模型,预测未知样本的标记分布.与现有算法在多个数据集上的实验表明,本算法优于多个对比算法,统计假设检验进一步说明算法的有效性和优越性.
32.基于语义相似度的无监督图像哈希方法
- Wang Bowei;王伯伟;Nie Xiushan;聂秀山;Yin Yilong;尹义龙
- 《第六届中国计算机学会大数据学术会议》
摘要：哈希方法作为最近邻搜索中的一个重要算法,具有快速及低内存的优良特性,能够较好的解决现实图像数据库中存在着样本标签信息缺失、人工标注成本过高等问题,因此在图像检索领域得到广泛使用.本文提出了一种基于语义相似度的无监督图像哈希方法.该方法首先对原始图像进行语义聚类,然后基于图像的语义相似性,把原始图像特征映射到汉明空间.同时为了增强哈希学习的鲁棒性,在所得到的目标函数中,该方法采用了l2,p范数(0＜p≤2)来代替?2范数进行哈希学习.通过在两个公共图像检索数据库CIFAR-10和NUS-WIDE的实验结果证明,与现有方法相比,本文所提出方法的平均精度均值提升5％.
33.基于集成学习的科研合作者潜力预测:一种分类方法
- Ai Ke;艾科;Ma Guoshuai;马国帅;Yang Kaikai;杨凯凯;Qian Yuhua;钱宇华
- 《第六届中国计算机学会大数据学术会议》
摘要：科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为学者选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于学者-文章大数据,本文综合考虑学者的文章、机构、研究兴趣等个人属性和相关属性,分别从文章标题、文章等级、文章数量、时间及署名序多维度构造样本特征,提出了基于集成学习分类方法的科研合作者潜力预测模型.本文分析并构造对应于科研合作者潜力预测问题的特征集,并采用分类方法解决这一问题.实验中准确率、召回率、F1分数都能够以较少的样本和时间收敛于较高值(80％以上),说明了模型的优越性.
34.共享单车运营分析及决策研究
- ZHANG Hong;张红;ZHOU Di-xin;周迪新;SHA Yu;沙毓
- 《第六届中国计算机学会大数据学术会议》
摘要：基于MathorCup全国大学生数学建模挑战赛提供的某地区共享单车骑行记录数据,利用时空统计分析,本文可视化的分析了该地区的共享单车时空分布情况;创新性的设计了依据骑行起讫时间及地址计算区域相对位置的计算方法,并应用蚁群算法优化了该地区共享单车的调度方案;基于该数据源中单车需求数据表,评估了该地区十个区域共享单车的使用满足程度,研究了基于满足程度趋势的共享单车最佳投放方案;最后,对共享单车投放量和打车人次,建立回归模型,研究了共享单车投放量对打车市场的影响.本文的研究结论与该地区共享单车的实际运行情况相符,对共享单车的可持续良性发展具有一定的决策指导意义.
35.一种融合萤火虫方法的多标签懒惰学习算法
- Cheng Yu-sheng;程玉胜;Qian Kun;钱坤;Wang Yi-bing;王一宾;Zhao Da-wei;赵大卫
- 《第六届中国计算机学会大数据学术会议》
摘要：近年来,在多标签分类中标签相关性研究成为热点之一.针对已有的基于k近邻的多标签相关性算法未充分考虑样本分布的问题进行了研究,即算法在利用近邻标签时因仅考虑了近邻标签相关性信息,这可能会使算法的鲁棒性有所降低.基于此,引入萤火虫方法(Firefly Algorithm),将相似度信息与标签信息相结合,提出一种融合萤火虫方法的多标签懒惰学习算法(FF-IMLLA).首先,利用Minkowski距离来度量相似度,从而找到近邻点.然后,使用萤火虫方法对标签计数向量进行改进.最后,分别使用奇异值分解与核极限学习机进行线性分类.FF-IMLLA算法在考虑了标签信息与相似度信息从而提高了算法的鲁棒性.提出的算法在公开的多个基准多标签数据集中的实验结果表明,该算法较其他对比的多标签学习算法有一定优势,使用统计假设检验与稳定性分析进一步说明所提出算法的合理性与有效性.
36.基于定向变异布谷鸟算法的配送路径问题研究
- LIU Xiao-zhen;刘晓珍;LIU Jing-sen;刘景森;GAO Zhong-xian;高中显
- 《第六届中国计算机学会大数据学术会议》
摘要：在货物配送路径规划问题中,为了保持基本布谷鸟算法中Lévy飞行机制与偏好随机游动策略的特点,本文提出了基于定向变异的布谷鸟算法和求解配送路径问题的完整有效方法.首先采用快速排序法将实数编码个体的每一维元素映射成问题的城市编号,从而建立算法与问题模型之间的联系;然后运用邻域搜索法决定城市访问的次序,即通过各城市之间的距离寻找当前城市的邻近城市,增强算法的收敛速度.同时,在算法局部搜索机制中,通过平均适应度函数将算法划分双子群,然后针对不同的子群体采用相应的定向变异机制,从而使算法搜索具有目的性,增强算法的局部搜索能力.对标准TSP数据库中测试算例的求解实验结果表明,本文算法在各个算例中的求解偏差率均有明显降低,无论在最优值还是平均值的偏差率上都小于其它几种对比算法,对于路径规划问题求解效果较优.
37.基于宽度学习系统的异常心电分类方法研究
- Wu Lan;吴兰;Han Xiaolei;韩晓磊
- 《第六届中国计算机学会大数据学术会议》
摘要：心电图是检测心脏疾病的重要手段之一,然而多种异常心电信号之间存在较大的相似性使得心电分类的准确性成为研究的焦点.传统的机器学习方法和当前的深度学习方法能较大的提升异常心电的分类准确率,但存在训练时间长、结构不灵活,难以实时在线学习更新等不足.基于此,提出一种基于宽度学习系统(BroadLearning System,BLS)的异常心电分类方法,该方法能够实时在线调整增强节点的个数并学习新样本的特征,在保证分类准确率的前提下,极大的降低训练时间.仿真结果表明,基于宽度学习系统的异常心电分类方法,其分类准确率达到96.5％,训练时间低至0.123秒,相比基于深度学习的异常心电分类方法,在保证分类准确率的情况下,训练时间缩短了99.8％.
38.基于深度神经网络的网络安全实体识别方法
- Qin Ya;秦娅;Shen Guowei;申国伟;Zhao Wenbo;赵文波;Chen Yanping;陈艳平
- 《第六届中国计算机学会大数据学术会议》
摘要：基于安全知识图谱的网络安全威胁情报分析能够细粒度的分析多源威胁情报数据,因此受到广泛关注.传统的命名实体识别方法难以识别网络安全领域中新的或中英文混合的安全实体,且提取的特征不充分,因此难以准确的识别网络安全实体.本文在深度神经网络模型的基础上,提出一种结合特征模板的CNN-BiLSTM-CRF的网络安全实体识别方法,其利用人工特征模板提取局部上下文特征,进一步利用神经网络模型自动提取字符特征和文本全局特征.实验结果表明,在大规模网络安全数据集上,本文提出的网络安全实体识别方法与其它方法相比,相关评价指标优于其它算法,F值达到86％.
39.基于聚集图的语义结构剪枝查询算法
- ZHU Yu;朱玉;YOU Jinguo;游进国;FU Ziyu;付子玉
- 《第六届中国计算机学会大数据学术会议》
摘要：在语义结构查询问题中,由于语义结构的特殊性及庞大数据集的存在,传统的点查询和频繁子图查询,无法简洁直观的描述百万节点的大图,并衡量查询到的语义结构的重要性.针对该问题,VoG算法利用子图分割并最大化对特殊结构进行匹配,但存在查询时间长,错误率较高等问题.因此提出了一种新算法,解决了传统算法的缺陷.所提算法的具体思路为:1)利用ApxGreedy算法对输入图进行聚集处理;2)通过聚集之后的超点内部与超点之间的强弱关联来进行筛选;3)根据聚集和查询步骤的误差率加权对查询到的语义结构进行排序并输出.剪枝查询算法来进行查询有效的降低了时间复杂度为O(dav3)+O(|E|).本文算法与VoG查询算法在真实数据集上的对比实验表明,基于聚集图上的语义结构查询算法可以在时间上缩短为VoG时间的10％、误差率降低了3.75％.
40.一种语义驱动的司法文档学习分类方法
- Jiangang Ma;马建刚;Yinglong Ma;马应龙
- 《第六届中国计算机学会大数据学术会议》
摘要：随着全国司法机关智能化建设和信息化建设应用的深入推进,积累了海量的司法文书,这为开展司法大数据应用和司法智能服务提供了基础.通过司法文书的相似性分析,实现类案推送,为司法人员提供智能辅助办案服务,可以显著提高办案的质量和效率.本文提出了一种语义驱动的方法来学习和分类司法文书.首先提出并构建了面向司法领域的领域知识本体以清晰表达文档级语义,然后在领域本体基础之上对司法文档进行相应的领域知识抽取.接着利用图长短期记忆模型(Graph LSTM)对司法文书进行训练和分类.最后,通过实验验证了该方法的有效性,实验结果表明该方法要显著优于一些常用的机器学习方法(如LSTM和SVM).
41.面向数据集成的多真值发现算法
- CHEM Liefeng;陈烈锋;XU Qinglin;许青林
- 《第六届中国计算机学会大数据学术会议》
摘要：大数据时代,大规模数据往往由多个数据源组成并服务于多个数据驱动型应用程序.由于数据源的可信度不同,不同数据源往往会产生数据冲突,使得难以判断哪些信息是真实的.近年来,真值发现方法通过从多个数据源中找到最符合现实的真值来解决冲突而成为研究热门.当前真值发现算通常假设实体某个属性只有一个真值,然而在现实中,实体具有多个真值的情况更为常见.针对多值实体,本文提出了一个多真值发现算法,该算法将多真值发现转化为一个最优化问题.根据对目标函数的求解选取置信度最高的多个值作为实体的真值.同时在计算描述值的置信度时,提出一种非对称的支持度计算方法,结合相似值的支持对其置信度进行修正.通过两个真实数据集上的实验表明本文算法的准确性优于现有的真值发现算法.
42.数据流上基于可伸缩模式的潜在语义事件发现
- QIU Zhen;邱镇;LIU Di;刘迪;WANG Qiyuan;王琪媛
- 《第六届中国计算机学会大数据学术会议》
摘要：随着大数据时代的来临,人类社会产生了大量的数据,这些数据反映了人们的生活习惯、社会规律以及自然规律.数据流作为大数据最重要的表现形式之一,应用的范围非常广泛.在实际的数据流应用领域中,连续数据点组成的波段往往更具领域价值,因为单个数据点仅仅表示了值的变化,而波段则是在宏观层次上展示了丰富的语义,因此以模式(波段)为粒度来表达数据流显得尤为重要.虽然各个领域的数据流表现复杂,但是都有一定规律可循,如何从复杂的数据流中获取知识,一直是数据挖掘研究领域的热点与挑战,挖掘和预测数据流中隐含的数据模式及领域价值具有重要的理论和现实意义.基于SP-Tree挖掘的可伸缩模式,提出了Pattern2vec的方法,将可伸缩模式向量化,从而利用向量来发现数据流上潜在的隐含语义,完成分类工作.在医疗和电力数据开展实验,实验结果表明Pattern2vec相比其他对比方法,具有更好的分类表现.
43.大规模时序图上的图模拟算法的研究
- Liu Meng;刘萌;Yuan Ye;袁野;Wang Yishu;王一舒;Ma Yuliang;马玉亮;Wang Guoren;王国仁
- 《第六届中国计算机学会大数据学术会议》
摘要：在图数据库中,现有的基于图模拟的匹配问题主要集中在静态图的图模拟上,但是,现实生活中的许多场景,如社交网络、交通系统网络等,需要采用带有时间变化标签的时序图进行建模,因此在时序图中解决图模拟问题是必要的.由于时序图中包含的信息量相较于静态图更为庞大,并且结构更为复杂,使现有的静态图中的图模拟方法不能直接适用于时序图中.为此本文首次提出时序图的图模拟匹配定义——时序边界模拟.首先,进行模式图分割,将复杂的模式图分割成简单的图.然后提出了TGBS(Temporal Graph Bounded Simulation)算法进行时序边界模拟匹配,并且,在此基础上对该算法进行了优化.最后,对时序边界模拟2计算机研究与发展2018年的结果按照一定规则进行整合,得到图模拟匹配的最终结果.对相关算法进行了对比实验,实验结果表明本文所提出的算法可以高效准确的解决时序图上图模拟匹配问题.
44.基于FFT-CRNN的电网负荷数据聚类特征提取方法
- Xing Yuan;邢源;Lin Rongheng;林荣恒
- 《第六届中国计算机学会大数据学术会议》
摘要：智能电网系统一直以来就是智慧城市中的紧要一环.通过对智能电网系统进行分析,可以创造出更加便利的用电服务.负荷曲线聚类是智能电网分析中的基础一环,大量后续的应用如负荷预测,用户画像构建都可以在负荷曲线聚类的基础上得以优化.本文结合最新的语音处理模型,提出一种基于卷积循环神经网络和快速傅里叶变换的方法去提取电网负荷聚类特征,同时借助三元组损失函数使该方法可以仅依靠部分标签类型的数据进行训练,进而对未出现在训练集的标签类型数据进行有效的聚类特征提取.本文使用美国电网负荷数据进行实验,通过对带有部分标签类别的数据进行训练,得到一个基于电网负荷数据的特征提取模型,在标签未出现在训练集中的数据上取得了96.01％的聚类准确度.
45.社交网络中的敏感内容检测方法研究
- MENG Xuyang;孟旭阳;XU Yabin;徐雅斌
- 《第六届中国计算机学会大数据学术会议》
摘要：社交网络的出现和快速发展使人们可以方便、快捷的进行相互交流与信息共享,但其中不乏黄赌毒信息,甚至还包括暴力恐怖和政治敏感内容,为此需要对社交网络发布的信息进行敏感内容检测.为了有效解决对敏感词进行变形处理而逃避被检测和过滤的问题,首先识别敏感词及敏感词的变形词,并采用敏感词指纹汇聚方法将敏感词的变形词与原词进行关联.在此基础上,采用语义指纹技术检测重复发布的敏感内容.其次,建立基于多任务学习的卷积神经网络模型(MTL-CNN),综合敏感性和情感倾向两个方面对发布文本进行检测.对比实验结果表明,本文提出的敏感内容检测方法具有较高的处理速率和检测准确率.
46.CNN图像标题生成
- Li Yong;李勇;Cheng Honghong;成红红;Liang Xinyan;梁新彦;Guo Qian;郭倩;Qian Yuhua;钱宇华
- 《第六届中国计算机学会大数据学术会议》
摘要：图像标题生成是人工智能领域一个非常有挑战性的任务,该任务需要在给定一张图片的情况下能够生成与它内容相符的标题句子.它需要同时处理图像和文本两个模态的数据,并发现不同数据彼此间的关联.针对该任务通常采用一个编码器-解码器模型来解决,编码器则通常利用RNN网络来处理文本数据、CNN网络来处理图像数据.而本文则提出一个完全基于CNN的模型来同时处理两个模态的数据,通过在Flickr8k和Flickr30k数据上进行实验,实验结果表明了该模型的有效性,由于该模型是可并行运算的,在运行效率也有所提升.
47.智能电视用户中潜在付费用户预测模型研究
- Guoyun Jiang;姜国运;Jun Li;李军;Jun Ma;马军
- 《第六届中国计算机学会大数据学术会议》
摘要：随着智能电视的普及,节目付费成为电视生产企业或视频内容企业最重要的利润来源之一.挖掘潜在付费用户,促使用户付费购买增值服务越来越成为企业亟待解决的问题.本文首先基于国内最大的电视厂家之一的海信公司日志数据的特点,提出了对日志信息扩展、特征衍生以及特征提取的解决方案.结合深度模型在高阶抽象特征学习上的优势以及线性模型在低阶特征学习上的优势,提出了Simplified Wide&Deep(SWD)模型.为了验证模型的性能,和传统分类模型进行了比较,实验结果表明,SWD模型在智能电视潜在付费用户预测中的F1测度上优于传统的分类模型,F1值能够达到0.8401.
48.基于DenseNet的复杂交通场景语义分割方法
- JIANG Bin;蒋斌;TU Wenxuan;涂文轩;YANG Chao;杨超;LIU Hongyu;刘虹雨;ZHAO Zilong;赵子龙
- 《第六届中国计算机学会大数据学术会议》
摘要：针对传统交通场景语义分割方法存在参数量大、计算效率低、精度不足等问题,本文提出一种基于全卷积化DenseNet的多尺度端到端语义分割模型.该方法首先构建一种含混合空洞卷积的密集连接模块,同时沿通道维度级联各模块以提取图像特征;其次,采集多尺度视觉信息并以此作为监督信号回传至原通道中;最后,通过双线性插值法获得预测输出.在CityScapes数据集上的测试实验中,MIoU达到70.41％,相比FCN8s、SegNet方法分别提升了12.94％、6.94％;参数量和存储空间分别减少了约10.6倍和2.2倍.实验结果表明,本文方法对复杂交通场景的鲁棒性更强,具有更高的预测精度和分割效率.
49.基于多视图半监督学习的人体行为识别
- Tang Chao;唐超;Wang Wenjian;王文剑;Wang Xiaofeng;王晓峰;Zhang Chen;张琛;Zou Le;邹乐
- 《第六届中国计算机学会大数据学术会议》
摘要：基于视觉的人体行为识别是一个给图像序列标记动作类别的处理过程.人体行为识别在视觉监控、视频检索和人机交互等领域中有非常重要的应用.目前,表征人体动作方法大多数是基于单个视图,例如,将人体动作表示为人体动作的组合,或是将人类动作表示为潜在的语义分布.由于人的行为在本质上是复杂的,单一视图表征缺乏全面分析人类行为的能力.本文提出了一种基于多视图半监督学习的人体行为识别方法.首先,提出了一种基于三种不同模态视图数据来表征人体动作,即基于RGB模态数据的傅立叶描述子特征视图、基于深度模态数据的时空兴趣点特征视图和基于关节模态数据的关节点投影分布特征视图.其次,使用多视图半监督学习框架来建模,它充分利用不同视图提供的互补信息,来确保基于少量标记和大量未标记数据半监督学习取得更好的分类精度.实验结果表明,基于多视图的人体行为表征比基于单个视图的行为表征更有效,本文方法可以取得有效的人体行为识别性能.
50.使用深度学习的蛋白质二级结构预测
- WANG Linyuan;王林湲;ZHANG Kun;张琨;Lv Guangyi;吕广奕;Liu Qi;刘淇;Chen Enhong;陈恩红
- 《第六届中国计算机学会大数据学术会议》
摘要：蛋白质二级结构预测是生物信息学上的一个关键问题.近年来,由于深度学习的成功,本文将深度学习应用到这一问题上面,设计了一种多方面的自注意力机制的深度卷积循环网络(Multi-Aspect Self-Attentive Network,MASAN)来进行蛋白质二级结构的预测.首先,本文使用了CNN来处理氨基酸序列,提取氨基酸序列的局部特征;在此基础上,利用双向循环神经网络(Bi-GRU)处理整个氨基酸序列,从而获取整个氨基酸序列的全局特征,然后本文利用自注意力机制(Self–Attention mechanism)来获取氨基酸序列中对蛋白质二级结构表示有重要影响的氨基酸.接下来利用残差网络整合获取到的所有信息,最后利用分类层进行分类.本文在公开的蛋白质数据集CullPDB,CB513进行了实验.实验结果展示了本文模型的优越性,与对比模型的结果相比,在准确率上有0.5％的提升.
51.SaaS环境下的数据隐私保护机制研究
- XU Yabin;徐雅斌;Xin Hu;胡昕
- 《第六届中国计算机学会大数据学术会议》
摘要：在软件即服务(SaaS)环境下,由于租户数据统一保存在云中,因而具有隐私泄露的风险.综合考虑数据使用效率和数据隐私保护两个方面,提出一种租户数据隐私保护策略.首先根据日志数据进行属性聚类,使得关联度较高的属性聚集到一起,以确保数据应用效率.然后再根据隐私约束条件对聚类后的每个属性集合做进一步的划分,生成可以避免数据隐私泄露的数据分割策略.最后利用第三方的可信云实现数据隐私分割策略的保存,并依此进行租户数据表的分割和重构.对比实验结果表明,提出的数据隐私分割算法整体来说具有较好的性能,可以实现100％的隐私保护效果.
52.一种基于SparkR的水文传感器数据的异常检测方法
- LIU Zi-Hao;刘子豪;LI Ling;李凌;YE Feng;叶枫
- 《第六届中国计算机学会大数据学术会议》
摘要：为了高效地从海量的水文传感器数据中检测出异常值,提出了一种基于SparkR的水文时间序列异常检测方法.对数据进行清洗后,采用滑动窗口配合自回归积分滑动平均模型在SparkR平台上进行预测,然后对预测的结果计算置信区间,在区间范围以外的,将其判定为异常值.基于检测结果,利用K均值算法对原数据进行聚类,同时计算其状态转移概率,对检测出的异常值进行质量评估.以在滁河获取的水文传感器数据为实验数据,分别在运行时间和异常值检测效果这两个方面进行了实验.结果表明:利用SparkR,对百万级数据进行计算时,利用双节点计算的时间要长于单节点,但是对千万级数据进行计算时,双节点比单节点在计算时间上更优,最多减少了16.21％,且评估过后的灵敏度由之前的5.24％提高到了92.98％.实验结果表明在大数据平台下,根据水文数据的特点并结合预测检验和聚类校验的方法,对千万级水文时间序列进行检测时,提高了传统方法的计算效率,并且在灵敏度方面相较于传统方法也有显著提升.
53.基于Hadoop的大规模网络安全实体识别方法
- QIN Ya;秦娅;SHEN Guo-Wei;申国伟;YU Hong-xing;余红星
- 《第六届中国计算机学会大数据学术会议》
摘要：随着大数据时代的到来,基于网络安全知识图谱的威胁情报分析成为研究热点.如何从多源异构碎片化数据中高效准确地识别网络安全实体是网络安全知识图谱的基础问题.因此本文针对网络安全相关文本数据,研究支持海量网络数据的安全实体识别算法,为构建网络安全知识图谱奠定基础.针对海量的文本类网络数据中安全实体的高效精准抽取问题,本文基于Hadoop分布式计算框架提出改进的CRF算法,对数据集进行有效分割,实现安全实体的高效准确识别.在大规模真实网络数据集上的实验证明,本文提出的算法达到了较高的网络安全实体识别准确率,同时,缩短了识别时间,提高了识别的效率.
54.基于辅助信息的混合线性矩阵补全模型
- SONG Hui;宋辉;YANG Ming;杨明
- 《第六届中国计算机学会大数据学术会议》
摘要：矩阵补全技术在近年来已经在诸多领域得到了应用,怎样利用已有的辅助信息进行矩阵补全使补全的精度得到提高,在最近的研究中得到了关注.本文提出一种将双线性关系与单边线性关系混合的矩阵补全模型,同时关注行信息与列信息之间的相关性和他们各自分别做具有的特点,使得混合线性模型能够尽可能的逼近原始观测矩阵.论文同时证明了使用ADMM算法求解的收敛性,并通过拟合数据和真实数据两组实验证明了同其他使用辅助信息的补全模型想比,论文方法获得补全结果在RMSE评价标准下的误差相对降低了25％以上.
55.引入外部词向量的文本信息网络表示学习
- ZHANG XiaoKun;张潇鲲;LIU Yan;刘琰;CHEN Jing;陈静
- 《第六届中国计算机学会大数据学术会议》
摘要：网络表示学习目的是学习网络节点的低维空间向量表示,以降低大规模或复杂网络存储、计算成本.文本信息网络,即节点包含丰富文本信息的网络,是日常生活中常见的网络形式.文本信息网络现有研究多基于网络自身信息建模.分布式词向量在自然语言处理任务中日渐普及,词向量作为语义特征空间的低维表示,能够在一定程度上衡量两个词之间的语义近似.将由外部任务无关语料预训练得到的词向量引入目标网络建模过程,可以利用外部语料语义约束丰富目标网络文本语义,因此本文提出基于外部词向量的网络表示模型NE-EWV(Network Embedding based on External Word Vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示.通过实验,在现实网络数据集中对模型有效性进行了验证.结果表明,在链接预测任务中的AUC指标,相比只考虑结构特征的模型提升7％到19％,相比考虑结构与文本特征的模型在大部分情况下有1％到12％提升;在节点分类任务中,与基线方法中性能最好的CANE性能相当.证明引入外部词向量作为外部知识能够有效提升网络表示能力.
56.人才流动的时空模式:分析与预测
- Huang Xu;胥皇;Zhiwen Yu;於志文;Bin Guo;郭斌;Zhu Wang;王柱
- 《第六届中国计算机学会大数据学术会议》
摘要：随着经济全球化的发展,地区间的人才流动日益频繁,人才的引进和流失对各地区的科技和经济的发展产生了巨大的影响.对人才流动问题进行深入研究,是实现有效的人才流动监控、制定科学人才引流政策的基础.本文提出一种数据驱动的人才流动分析方法,研究地区间人才流动的规律.具体而言,本文提出基于矩阵序列的地区间人才流动现象的定量表示方法,挖掘地区间人才流动的时空模式,分析地区人才吸引力的差异和聚集效应.进一步提出人才流动预测模型,结合卷积和循环神经网络实现地区间人才流量预估.本文通过大规模在线职业平台的数据对所提出的模型进行验证,实验表明,本文提出的模型误差相对基准模型平均降低约15％.
57.一种结合外部知识的动态多层次语义抽取网络模型
- Haibo Liu;刘海波;Zhigang Zhuang;庄志刚;Xuping Tu;涂旭平;Chuanjie Li;利传杰;Wenchao Jiang;姜文超
- 《第六届中国计算机学会大数据学术会议》
摘要：基于语义抽取的机器阅读理解是目前人工智能与大数据相结合的热点应用之一。针对复杂多文本机器阅读理解任务中的语义理解与答案提取问题，提出一种结合外部知识的动态多层次语义理解与答案抽取模型。首先，利用改进的门控单元循环神经网络匹配文本内容与问题集；然后，分别在向量化文本内容及问题集上实施多维度动态双向注意力机制分析，提高语义匹配精度；接着，利用动态指针网络确定问题答案范围，改进网络模型语义匹配效率，降低答案提取冗余度；最后，结合外部知识与经验改进候选答案精准性排序，得到最终答案。实验以Wikilinks 数据作为外部知识，在主流MS-MARCO英文数据集与DuReader 中文数据集上进行测试分析，并与ReasoNet、FastQAEXT、R-Net、S-Net、Verification model 等主流模型进行对比，本文模型语义匹配与答案提取精度显著提升。同时，对不同领域的复杂文本阅读理解任务具有较高鲁棒性。
58.基于密度的停留点识别方法
- LI Yurui;李毓瑞;CHEN Hongmei;陈红梅;WANG Lizhen;王丽珍;XIAO Qing;肖清
- 《第六届中国计算机学会大数据学术会议》
摘要：从GPS轨迹点序列中识别停留点,是轨迹分析的重要预处理步骤,是用户行为分析、个性化兴趣点推荐等位置服务的基础,停留点识别方法的识别能力对位置服务的可用性和可靠性有着根本性的影响.针对现有方法未考虑轨迹点的时间连续性或仅考虑时间连续性的一个方向所导致的停留点识别能力不足的问题,本文提出一种新的基于密度的停留点识别方法(Stay Point Identification based on Density,SPID).该方法考虑了轨迹点的时空聚集,兼顾了轨迹点的时间连续性和方向性.在GeoLife数据集上的实验结果验证了该方法的识别能力强于基准方法,可以进一步识别基准方法不能识别的两类停留点.
59.融合多层卷积特征的相关滤波运动目标跟踪算法
- LI Jian-peng;李健鹏;SHANG Zhen-hong;尚振宏;LIU Hui;刘辉
- 《第六届中国计算机学会大数据学术会议》
摘要：在目标跟踪算法中,相关滤波近今几年来发展迅速,是研究的热点.相关滤波跟踪算法有速度快效果好等优点,但受限于传统手工特征对目标表达能力不足,仍然难以应对诸如形变、遮挡、模糊等情形[1].最近,卷积神经网络在诸多领域取得了极大的成功,研究人员将相关滤波与卷积特征结合,克服了传统手工特征缺少目标语义信息的缺点.为了有效处理目标外观变化,文中提出一种相关滤波运动目标跟踪算法.该算法将目标跟踪分为确定位置和估计尺度两个步骤.提取多层卷积特征并在每个卷积层上估计目标位置,通过固定权重将所有卷积层的结果融合来确定目标的最终位置;确定位置后通过提取目标多个尺度的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征来估计目标的最佳尺度.在公开数据集中选取的20段视频中验证文中算法,并与4种运动目标跟踪算法进行比较.实验中数据表明,与次优的基于传统手工特征的DSST[2]算法相比,距离精度提高了48.9％,重叠精度提高了51.9％;与同样使用卷积特征的HCF[3]算法相比,距离精度提高了18.0％,重叠精度提高了25.0％.实验结果表明文中提出的算法较好克服了传统手工能力表达能力弱的缺点,性能优于使用手工特征的传统相关滤波跟踪算法,相比同样使用卷积特征的相关滤波算法也有提高.在目标发生遮挡,模糊等复杂情况下该算法能够准确跟踪目标.
60.带有时间标签的流行社交位置发现
- Changyun Liu;刘长赟;Yudi Yang;杨宇迪;Lihua Zhou;周丽华;Lihong Zhao;赵丽红
- 《第六届中国计算机学会大数据学术会议》
摘要：流行社交位置是指大多数人日常生活中经常访问的位置,其广泛应用于推荐系统、定向广告应用等领域.随着基于位置的社交网络(Location-Based Social Network,LBSN)的迅速发展,流行社交位置的挖掘成为时空数据挖掘中的一个重要的研究热点.然而,现有的研究主要是从LBSN中挖掘流行社交位置,忽略了流行社交位置的时间因素,因此,文中提出了带有时间标签的流行社交位置发现算法.该算法首先量化LBSN数据集中的时间信息,得到个体用户带有时间标签的频繁社交位置集合,然后计算这些带时间标签的位置在群体用户中的流行度,并识别符合要求的带时间标签的流行社交位置.实验结果表明,该算法能够较为准确的发现带有时间标签的流行社交位置.
61.基于Spark的并行化头脑风暴优化算法及复杂多峰函数优化
- YANG Guang-ming;杨广明;ZHANG Tao;张涛;TRUONG Thanh-tung;TRUONG THANH TUNG;WANG Rui;王瑞;MA Lian-Bo;马连博
- 《第六届中国计算机学会大数据学术会议》
摘要：头脑风暴优化(Brain Storm Optimization,BSO)算法是一种新型的群体智能优化算法,启发于众人集思广益求解问题的模式,适合求解复杂多峰函数优化问题.但BSO求解多峰极值时需进行重复的迭代运算,面对大规模数据集时会出现计算效率与求解精度过低的现象.为解决上述问题,本文设计并实现了一种基于Spark的并行化头脑风暴优化算法,通过将BSO算法中计算复杂度最高的聚类与新解产生过程并行化,以提高算法的加速比与计算效率.特别地,基于并行化思想,将种群划分为多个子群进行协同演化,每个子群独立产生新解来保持种群多样性,提高算法的收敛速度.最后,利用并行化BSO算法求解多峰函数.实验表明,在并行节点的总核心数为10的情况下,并行化BSO算法计算时间节省一半,计算精度和串行BSO算法基本持平,收敛速度明显提高,结果证明了并行化BSO的有效性.
62.一种基于局部属性生成对抗网络的人脸修复算法
- Jiang Bin;蒋斌;Liu Hongyu;刘虹雨;Yang Chao;杨超;Tu Wenxuan;涂文轩;Zhao Zilong;赵子龙
- 《第六届中国计算机学会大数据学术会议》
摘要：最近对神经网络模型的研究在图像修复任务中显示出巨大的潜力,其核心是从已知内容中寻找合理的区域来预测不完整图像的缺失像素值并生成新的图像,这些方法可以生成语义和内容上合理的结构和纹理,但通常会导致与孔洞周围区域不一致的扭曲结构或模糊纹理,特别是人脸图像修复问题.进行人脸图像修复工作时,经常需要为包含大量外观元素以及局部属性的缺失区域(例如,眼睛和嘴巴)生成语义上的新图像,在非缺失区域难以获取有效像素信息对图像进行补全.针对以上问题,本文提出了一个有效的深度神经网络模型,不仅仅从人脸整体性上增强网络感知度,同时也基于局部属性修复人脸关键部位,模型结合全连接卷积和U-net网络的特性,利用局部属性生成对抗网络使修复画面具有创新性的同时也能够使整体与局部保持一致性.我们的模型结构具有一定创新新,并且通过在CelebA数据集上的实验证明了该模型能够有效的修复人脸缺失部分,并且修复区域具有一定创新性.
63.基于迁移学习的敏感数据隐私保护方法研究
- Fu Yuxiang;付玉香;Qin Yongbin;秦永彬;Shen Guowei;申国伟
- 《第六届中国计算机学会大数据学术会议》
摘要：机器学习涉及一些隐含的敏感数据,当受到模型查询或模型检验等模型攻击时,可能会泄露用户隐私信息.针对上述问题,本文提出一种敏感数据隐私保护“师徒”模型PATE-T,为机器学习模型的训练数据提供强有力的隐私保证.该方法以“黑盒”方式组合了由不相交敏感数据集训练得到的多个“师父”模型,这些模型直接依赖于敏感训练数据.“徒弟”由“师父”集合迁移学习得到,不能直接访问“师父”或基础参数,“徒弟”所在数据域与敏感训练数据域不同但相关.在差分隐私方面,攻击者可以查询“徒弟”,也可以检查其内部工作,但无法获取训练数据的隐私信息.实验表明,在MNIST数据集和SVHN数据集上,本文提出的隐私保护模型达到了隐私/实用准确性的权衡,结果表现优越.
64.基于主动学习和克里金插值的空气质量推测
- CHANG Huijuan;常慧娟;YU Zhiwen;於志文;YU Zhiyong;於志勇;AN Qi;安琦;GUO Bin;郭斌
- 《第六届中国计算机学会大数据学术会议》
摘要：准确获取城市中每个位置的空气质量能够大幅提升人民生活福祉.但由于空气质量监测站需占用大量空间且成本高昂,仅能在少数位置部署,因此挑战在于,选取哪些少数位置,对空气质量进行采样,就能最大程度准确地推测其他位置的空气质量.鉴于空气质量具有空间自相关性,因此选用克里金插值作为基础的空气质量推测算法,但克里金插值法缺乏最优采样位置的选择方法,所以结合了主动学习的思想,寻找对模型置信度贡献最大的位置优先采样.研究结果表明,所建立的基于主动学习和克里金插值的推测算法能够在只有少量标记样本的情况下,有效推测给定的任意位置的空气质量指数,相对普通插值方法,最优可提高10％的预测精度,相同精度下,可减少一半采样点.
65.基于解耦概要图的大规模图数据高效分布式挖掘算法
- Ling Li;李玲;Ying Yin;印莹;Yuhai Zhao;赵宇海;Guoren Wang;王国仁
- 《第六届中国计算机学会大数据学术会议》
摘要：频繁封闭子图挖掘被证明是NP-难问题.多年来,虽然已有许多算法被提出用于解决该问题,但在挖掘大规模图数据时,却面临着共同的计算效率问题.特别是,当图中节点的平均度数增加时,挖掘效率更是急剧下降.针对以上问题,本文提出一种面向大规模图数据的高效分布式挖掘算法Desu-FSM.与现有基于水平分解的分布式挖掘框架不同,该算法首次采用了基于垂直分解的分布式挖掘框架.其基本思想可概括为“快速抵近,双向搜索”.首先,通过τ-邻域核图合并,获得概要图集,跨越式地快速抵近较大尺寸子图的聚集区域.在此基础上,通过对概要图的缩减和扩展发现所有被概要图包含和包含概要图的闭图模式.相较于原始图数据,概要图的尺寸和平均节点度数更小.而且,基于概要图的双向搜索可在分布式环境下同时独立完成,不存在耦合.因此,计算效率被大幅提升.大量真实和人工数据集上的测试结果表明,在大规模图数据封闭子图挖掘中,基于垂直分解框架的挖掘效率相较于水平分解框架的效率可提升一个数量级.同时,具有更少的内存空间占用.
66.基于贝叶斯网络的XSS攻击检测方法
- WANG Pei-Chao;王培超;ZHOU Yun;周鋆;ZHU Cheng;朱承;ZHANG Wei-Ming;张维明
- 《第六届中国计算机学会大数据学术会议》
摘要：跨站脚本(XSS)攻击对Web安全构成严重威胁,是最为严重的网络攻击之一.传统的XSS检测方法主要从漏洞本身入手,多依赖于静态分析和动态分析,在多样化的攻击载荷(payload)面前显得力不从心.本文提出了一种基于贝叶斯网络的XSS攻击检测方法,该网络中的节点通过领域知识来获取.本文利用领域知识构建的本体为贝叶斯网络的构建提供了良好的特征选择基础,并从中提取了17个特征,同时从公开渠道搜集的恶意IP和恶意域名为该模型及时检测新型攻击补充了有力规则.为验证本文所提方法的有效性,本文在实际收集的XSS攻击数据集上进行实验,结果表明,在面对多样化的攻击时,本文所提方法可以保持90％以上的检测准确率.
67.基于自然邻居方法的无参数离群检测算法
- JI Feng;冯骥;RUISHENG Ran;冉瑞生;YAN Wei;魏延
- 《第六届中国计算机学会大数据学术会议》
摘要：离群检测是数据挖掘领域的重点问题之一,而离群检测算法中各种参数的取值严重影响着离群算法的检测结果.特别是,当存在具有任意形状的簇和变化的密度的数据集时,在没有先验知识的情况下难以确定适当的参数.为了解决这个问题,论文在自然邻居方法的基础上,提出一种利用加权自然邻居邻域图进行离群检测的算法.该算法在整个过程不需要人为设置参数,并且在不同分布特征的数据中准确找到数据集中的全局离群点和局部离群点.人工数据集和真实数据的离群检测结果均证明了本文提出的方法的有效性.
68.面向电力系统各状态变量的实时滤波和预测估计新方法
- PAN Ming-ming;潘明明;SUN Xiao-hui;孙晓辉;WEN Cheng-lin;文成林
- 《第六届中国计算机学会大数据学术会议》
摘要：对分布式发电单元的各状态变量和用电各负荷状态变量进行实时估计和预测估计,是对其进行负荷预测,并进一步实施预测控制的基础.针对现有方法存在的不足,本文通过基于神经网络框架构建各状态变量随时间序列模型,并考虑所建模型的非平稳性,将其转化在Kalman滤波框架下进行处理;进一步通过建立相关状态变量的点点滤波模型、块状态模型及预测模型,分别建立状态的实时点估计方法、块状态的半实时估计方法及实时块平滑、块滤波及块预测等估计方法.用计算机仿真对新方法的性能进行测试与验证.
69.基于模体的目标区域网络拓扑划分方法
- YANG Di;杨迪;LIU Yan;刘琰;CHEN Jing;陈静;ZHANG Wei-Li;张伟丽
- 《第六届中国计算机学会大数据学术会议》
摘要：随着信息社会的发展,网络安全的重要性日益凸显,迫切需要加强对网络的管理,而准确获取网络实体的地理位置有助于更好地实施网络管理,因此建立网络实体与其地理位置的映射关系成为网络拓扑分析的一项重要研究内容.现有经典的基于网络拓扑启发式聚类的网络拓扑映射和地理定位方法,采用基于网络结构的集群划分对目标网络实体进行聚类,由于没有考虑网络拓扑的具体特性,导致建立的映射关系误差较大.为解决这一问题,提出了一种基于模体的目标区域网络拓扑划分方法.该方法首先利用互联网拓扑中相近区域的网络拓扑呈现高度集群化特征,将集群化特征视为网络拓扑的社团特性,借鉴复杂网络中基于初始种子扩散的社团发现思路,通过引入生物学网络中的“模体”概念进行优化,得到网络拓扑的社团划分结果.然后分别根据地标和公开的IP地理位置数据库对划分的拓扑社团进行定位,确定其地理位置,最终建立网络实体与其地理位置的映射关系.基于香港和台湾两个地区的网络拓扑的实验结果表明,这种方法与经典的HC-Based方法、NNC(Network Node Clustering)方法相比,在准确率上分别能提高25％和16％左右,而且可定位的网络实体更多.
70.基于多领域复杂网络拓扑结构的节点重要度评价方法
- LIU Yan;刘雁;RAO Yuan;饶元
- 《第六届中国计算机学会大数据学术会议》
摘要：节点的重要度评价对于复杂网络上节点的传播影响力具有重要的理论意义和应用价值,但是在传统的基于网络位置的方法中,并未考虑到多维指标特征对网络中节点的重要度的影响,导致了在大型网络的节点重要度的评价中:一般节点的排序结果精度不高.本文在深入剖析经典的混合度分解算法以及传统的重要性排序算法缺陷的基础上,结合网络节点的全局特征和局部特征对节点进行重要度的影响分析,并将三度影响力原则融入到节点的局部特征中,提出了一种适用于无向网络的基于多领域复杂网络拓扑结构下的节点重要度评价方法:基于聚集系数和邻居特征的混合分解方法(CNMD).在社交网络、电子邮件网络、协作网络等10个领域的数据集上的实验结果表明,相比于MDD,Eksd和MCDWE等算法,CNMD方法排序结果的分辨率分别达到了92.44％、99.99％、98.68％等,其中在10个领域数据集上的平均分辨率为98.73％,最高分辨率为99.99％,最低分辨率为92.44％,明显优于目前的对比算法,从而可以更有效地应用于大型复杂网络中节点重要度的快速评价与计算.
71.基于改进损失函数的多阶段行人属性识别方法
- Shaofei Zheng;郑少飞;Jin Tang;汤进;Bin Luo;罗斌;Xiao Wang;王逍;WenZhong Wang;王文中
- 《第六届中国计算机学会大数据学术会议》
摘要：视频监控场景下的行人属性(如性别和衣着样式等)的识别是一个重要但具有挑战性的计算机视觉任务.已有大量研究工作通过挖掘属性间的正相关性来提高模型性能,但对属性间负相关性的探索仍存在不足.为此,本文基于深度学习提出多阶段行人属性识别法(MPAR)来同时探索属性间的正、负相关性.具体为:第一阶段计算每个属性在训练过程中的损失函数值和正确率.第二阶段为平均损失较大且正确率较小的属性单独建立一个网络分支,其他属性仍保留在原分支上,然后两个分支联合预测所有属性.第三阶段新建两个网络分支,其结构同第二阶段的分支相同,优化新分支的参数,使其属性识别性能优于第二阶段.最终使用第三阶段的模型进行属性预测.此外,构建增大正负样本差异的改进损失函数(IDPNL),并将其应用于三个阶段的训练来进一步提升模型性能.在两个行人属性识别数据集RAP和PETA上的实验表明本文提出的模型相比于其他方法更为出色.
72.基于在线自适应极限学习机(OAELM)选择性集成的网络入侵检测
- He Jiezhou;何捷舟;Liu Jinping;刘金平;Tang Zhaohui;唐朝晖;Zhang Wuxia;张五霞;Xu Pengfei;徐鹏飞
- 《第六届中国计算机学会大数据学术会议》
摘要：互联网的普及和网络连接设备与访问方式的多样化,为人们生活带来巨大便利的同时也带来巨大的安全挑战.网络入侵方式与手段日趋多样化且变异速度快,传统入侵检测方法在有效性、自适应性和实时性方面难以应对日益复杂网络环境的安全监控要求.本文提出一种基于在线自适应极限学习机(Online adaption extreme learning machine,OAELM)选择性学习的网络入侵检测方法(SEoOAELM-NID).首先,提出一种能自动设定最优隐含节点个数且具有在线增量学习功能的OAELM构建方法,采用Bagging策略快速训练出多个具有一定独立性的OAELM子学习器;然后,基于边缘距离最小化原则(Margin Distance Minimization,MDM)对OAELM子学习器的集成增益进行计算;通过选择增益度高的部分OAELM进行选择性集成,获得泛化能力强、效率高的选择性集成学习器用于入侵检测.由于SEoOAELM-NID能自动设定ELM子学习器最优隐节点个数且能根据网络环境变化实现检测模型在线顺序更新,因而能有效适应各种复杂网络环境的入侵检测要求;通过选择部分最优的子学习器进行集成,保证了最终检测结果的准确性和实效性,并利用在线数据不断更新检测器.在NSL-KDD数据集上的测试结果表明,相比于基于单个学习器以及传统集成学习的网络入侵检测方法,SEoOAELM-NID无论对已知入侵类型还是未知入侵类型均能获得更高的检测率,且识别速度快,应用前景广阔.
73.一种多视图深度融合的连续性缺失补全方法
- MAO Ying-Chi;毛莺池;ZHANG Jian-Hua;张建华;CHEN Hao;陈豪
- 《第六届中国计算机学会大数据学术会议》
摘要：建立了一种多视图深度融合的连续性缺失补全方法.该方法采用反转距离加权插值,双向简单指数平滑,用户协同过滤,能量扩散协同过滤、文本嵌套方法,分别得到时空和语义五种缺失数据补全中间结果;构造深度神经网络模型,融合跨时空和语义视图中互补异构信息,实现连续性缺失补全.实验结果表明,补全连续性缺失,该方法不但效率高,而且比时空多视图补全方法在平均绝对误差与平均相对误差上分别降低7％和22％.
74.基于PWCC的并行动态社区发现算法
- Wu Bin;吴斌;Zhang Cuiyun;张翠云;Zhang Yunlei;张云雷
- 《第六届中国计算机学会大数据学术会议》
摘要：动态社区发现是研究网络演化的重要技术.然而,随着网络规模的日益增长,传统的单机算法难以处理大规模网络.此外,现有的一些社区质量衡量指标存在一定的局限性,如持久力(permanence),加权聚集系数WCC(Weighted Clustering Coefficient)等具有较高的计算复杂性,基于这些指标的社区发现算法具有较高的时间复杂度,难以应用于大规模动态网络.该文针对WCC的高时间复杂度,提出一种社区质量衡量指标,即并行加权聚集系数PWCC(Parallel Weighted Clustering Coefficient),在保证网络社区准确性的前提下,PWCC实现了计算机研究与发展2018年较低的计算复杂性.并且该文提出一种基于GraphX并行图计算平台的启发式并行动态社区发现算法PICD.基于PWCC对社区结构和网络变化的敏感性,PICD通过仅对增量节点调整其社区归属来不断优化网络的PWCC,从而准确地发现社区结构.该文在真实世界网络和合成网络上进行实验,结果表明与FacetNet、DyPerm算法相比,PICD算法具有较高的准确性和稳定性.与DyPerm算法相比,PICD提高了约10％的平均NMI值.此外,不同规模的网络实验表明,PICD比PIDCDS算法具有更高的性能,随着网络规模的增长,PICD算法呈现近似线性的时间增长.
75.基于残差网络和随机森林的音频识别方法
- Zhang Xiaolong;张晓龙;Peng Yi;彭宜
- 《第六届中国计算机学会大数据学术会议》
摘要：环境声音分类(ESC)是音频处理领域中的重要分支之一，在未来多媒体应用中有重要的作用。音频识别是提取音频中特定的声学特性，将音频分类至样本对应的正确场景，有助于获取感知和理解周围环境。现阶段音频识别主要通过信号处理的技术和机器学习方法达成。随着人工智能飞速发展，传统的音频处理技术以及机器学习方法面临着巨大的挑战，ESC的识别准确性有待进一步的提高。本文结合了残差网络和随机森林两种方法，将一维时域信号的音频数据转换为二维数据形式的梅尔声谱图，预训练残差网络获得一个精度较高的网络模型作为特征提取器，利用该网络模型提取音频中的深层特征，再利用随机森林对深层特征进行分类。该方法在ESC任务上识别率提升了接近10%，取得了较好的分类结果。
76.基于IndRNN-Attention的用户意图分类
- Zhang Zhichang;张志昌;Zhang Zhenwen;张珍文;Zhang Zhiman;张治满
- 《第六届中国计算机学会大数据学术会议》
摘要：人机对话是自然语言处理研究中的热点问题.如何让对话系统更精准地识别和理解用户意图仍然是一个很大的挑战.针对人机对话过程中的用户意图分类问题,本文提出了一种基于独立循环神经网络(independently recurrent neural network,IndRNN)和注意力机制(attention mechanism)的用户意图分类方法.首先利用IndRNN对文本编码,然后使用注意力机制对编码向量进一步提取更高层次特征并生成最终向量,最后经由softmax层分类输出分类结果.不同于传统的RNN,IndRNN由于其独特的结构,有效地改善了RNN中容易出现的梯度消失和梯度爆炸问题;同时,词级别注意力机制的使用提高了领域相关词的贡献度,大幅度提高了分类精度.实验表明,本文方法相比基于SVM的分类模型F值提高了9％,比基于CNN和LSTM的分类模型提高了6％以上,取得了更好的分类效果.
77.基于城市交通大数据的车辆类别挖掘及应用分析
- JI Li-na;纪丽娜;CHEN Kai;陈凯;于彦伟;YU Yan-wei;SONG Peng;宋鹏;王淑莹;WANG Shu-ying;WANG Cheng-rui;王成锐
- 《第六届中国计算机学会大数据学术会议》
摘要：实时城市交通监控已成为现代城市管理的一个重要组成部分,视频监控采集的交通大数据在城市管理和交通控制方面得到了越来越多的应用.然而,全城范围内庞大的监控交通大数据还鲜少用于城市交通及城市计算研究.本文首次在一个城市的全城范围内的监控交通大数据上展开了车辆类别挖掘及应用分析研究.首先,定义了周期性私家车、类出租车和公共通勤车三种对城市交通具有重要影响的车辆类别,并提出了相应的挖掘方法.在济南市一周1704个视频监测点,1.2亿次车辆记录数据上,验证了所提定义及挖掘方法的有效性.其次,以居民小区为例,通过4个案例小区挖掘分析了居民出行的交通方式及与周围POI分布关系,此外,还探索了城市交通监控大数据与POI相结合在城市规划、需求预测和偏好推荐方面的应用潜能.
78.利用MISA多目标优化的置信规则库分类算法
- LIN Jin;林锦;HU Jiachen;胡家琛;LIU Wanling;刘莞玲;WU Yingjie;吴英杰
- 《第六届中国计算机学会大数据学术会议》
摘要：现有基于置信规则库的分类系统的分类准确率和效率受到系统参数设置以及规则库结构合理性的影响.为了能寻找到最佳的参数值和最优的规则库结构,本文结合了基于Pareto的多目标优化免疫遗传算法(MISA)提出利用MISA多目标优化的置信规则库分类算法.该方法融合特征属性约简思想和差分进化算法思想建立训练模型,采用基于Pareto的多目标优化免疫遗传算法(MISA)对系统复杂度和分类准确度进行多目标优化,从而寻找到分类模型的最优解.在实验分析中,首先将本文提出的置信规则库多目标分类系统MISA-BRM和置信规则库分类系统的实验结果进行对比,从复杂度和准确率两个维度说明本文方法的有效性.同时还将本文方法与现有的其他分类方法进行比较,验证本文方法的可行性和有效性.
79.AnomalyDetect:一种基于欧式距离的在线异常检测算法
- Huo Wenjun;霍文君;Wang wei;王伟;Li Wen;李文
- 《第六届中国计算机学会大数据学术会议》
摘要：异常检测是数据挖掘中的一项关键技术,是指在一群数据中发现离群点,在计算机和互联网领域有广泛的应用,包括网络安全、图像识别、智能运维等等.特别是智能运维,近几年取得了长足的发展.已有的异常检测算法会有低准确度、离线、无法自动更新等诸多问题.本文对智能运维背景下的真实异常检测问题进行研究,形成高准确度、在线、通用异常检测算法的实际需求,并据此在已有的时间序列异常检测算法的基础上,提出了一种新的基于欧式距离的在线异常检测算法.通过实际的运维时序数据实验,发现该算法可以实时快速准确地检测流式时间序列数据中的异常数据,验证了本文提出的算法的有效性.