频繁模式挖掘
频繁模式挖掘的相关文献在2002年到2023年内共计144篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、经济计划与管理
等领域,其中期刊论文83篇、会议论文8篇、专利文献91463篇;相关期刊57种,包括电子与信息学报、计算机工程与应用、计算机科学等;
相关会议6种,包括中国空间科学学会第七次学术年会、第二十四届中国数据库学术会议、第二十二届中国数据库学术会议等;频繁模式挖掘的相关文献由356位作者贡献,包括刘铎、曾宇、朱潇等。
频繁模式挖掘—发文量
专利文献>
论文:91463篇
占比:99.90%
总计:91554篇
频繁模式挖掘
-研究学者
- 刘铎
- 曾宇
- 朱潇
- 林怡
- 王洁
- 韩萌
- 刘君强
- 沈良忠
- 王志海
- 陈辉
- 丁剑
- 万里
- 任家东
- 何军
- 倪友聪
- 冉晓旻
- 冯萍
- 刘兴建
- 刘红岩
- 刘鹏飞
- 原振文
- 原继东
- 吕律
- 吴定明
- 吴瑞兰
- 吴鹏
- 周媛
- 周晓峰
- 周青
- 唐世渭
- 唐蕾
- 姚艳秋
- 姜浩
- 孙亚非
- 孙伟
- 尤涛
- 崔涌泉
- 崔诚煜
- 席丽娜
- 应时
- 廖建新
- 张亚玲
- 张啸剑
- 张宏杰
- 张恒山
- 施佳峰
- 晋耀红
- 朱晓民
- 李亚敏
- 李勃
-
-
卢菁;
安吉;
刘丛
-
-
摘要:
Markov模型在位置预测领域有着广泛的应用,然而,动态Markov模型阶数难以确定.本文设计了一个在对用户地理轨迹和语义轨迹进行挖掘的过程中动态确定阶数的方法DMM+C,根据用户当前的轨迹序列和历史轨迹模式,结合轨迹前缀树(TPtree)以及相邻簇中用户信息,动态确定合适的阶数进行用户位置预测.该方法基于滑动时间窗口的PrefixSpan(STW-P)算法实现,通过挖掘最近一系列块中的移动模式以及用户位置访问频率不断更新用户的轨迹模式,捕捉用户移动序列模式随时间的变化规律,利用用户评论的概率分布提高位置预测精度.真实数据集上的实验证明了本方法的有效性.
-
-
宇占军
-
-
摘要:
接触网作为电力机车的动力传输通道,保障其安全稳定运行至关重要.近年来,各铁路局相继建立了接触网故障数据库,从大量故障数据中寻找有用信息并指导运维.本文基于Apriori算法框架,将频繁模式挖掘技术应用到接触网故障数据的分析中;结合维修周期故障分类模型,将逐条记录的故障数据转换为适合挖掘的数据形式,并应用布尔映射矩阵通过单次扫描数据库实现挖掘算法;针对挖掘结果中可能出现的大量关联规则,提出用熵权法对关联规则常用的多个参数进行综合评价,进而得到了用量化指标对关联规则进行推荐的模型.
-
-
梁文娟;
陈红;
赵素云;
李翠平
-
-
摘要:
频繁模式挖掘是事务数据分析的常用技术,面向数据流的频繁模式挖掘具有重要的应用价值.然而当事务为敏感信息时,直接发布频繁模式及支持度会导致个体隐私泄露.差分隐私是一种严格且可证明的隐私保护模型,目前虽然已有基于差分隐私的频繁模式发布方案,但它们大都是面向静态数据做一次性发布的隐私保护.本文是面向数据流频繁模式发布的隐私保护,旨在设计一种兼顾可用性和发布效率的持续发布的差分隐私保护方案.与静态发布方案不同,面向数据流的隐私保护处理面临两大挑战:一是持续发布过程中隐私预算的累计消耗会造成发布结果可用性较低;二是候选模式集增大会造成发布结果误差较大和发布效率较低.为解决隐私预算的累计消耗问题,方案设计了满足event级差分隐私的保护机制.该机制可以最大化隐私预算利用率,提高发布结果可用性.为降低候选模式集大小,从而提高发布结果可用性和发布效率,方案首先设计了一种基于模式估计的长事务拆分预处理策略,并对拆分所致的信息丢失率进行了分析和弥补.然后在持续发布阶段,在基于Cantree的挖掘中,先基于支持度阈值对候选模式集进一步缩减.基于缩减后的候选模式集,本文设计了 一种蓄水池抽样和指数机制(EM)相结合的持续更新发布策略,该策略通过一遍扫描抽样集,在保证可用性和隐私保护级别的前提下提高了发布效率.最后,理论证明了该方案满足ε-差分隐私,实验结果验证了该方案具有较好的可用性和较高的工作效率.
-
-
赵佳斌;
赵海燕;
曹健;
陈庆奎
-
-
摘要:
社交化编码是当前软件开发生产的一个重要方式,其开发模式的灵活性与开放性吸引了大量的开发者.开发者通过参与开源项目能够提升自己的开发能力并在社区中形成自己的影响力.许多开源社区如GitHub上有大量的开源项目.开发者将花费大量的时间与精力去寻找自己感兴趣的项目.开源项目推荐引起了研究者的兴趣,然而,目前的方法中仅仅基于开发者过去参加过的项目的相似性进行项目推荐,没有对开发者的兴趣迁移进行考虑.针对这一问题,本文提出了一种基于项目主题迁移频繁模式挖掘的推荐算法.该方法结合了概率主题模型与顺序频繁模式挖掘,并考虑项目社交关联和流行度,从而为开发者提供个性化开源项目推荐.本文所提方法的召回率比传统的方法高出了10.9%,推荐效果显著提升.
-
-
吴成凤;
蔡莉;
李劲;
梁宇
-
-
摘要:
随着城市化进程的不断深入,居民出行频繁模式挖掘成为一个研究热点.然而,现有的研究存在一些问题,如缺乏对频繁模式发生的目的和意义的描述,以及对挖掘结果分析不全面等.针对这些问题,文中提出了一种新颖的居民出行频繁模式挖掘方法(Mining Method of Residents'Frequent Travel Patterns,MMoRFTP).首先,采用形态学图像方式将地图划分为多个区域,利用融合后的多源位置数据来构建出行模式,并采用主题模型识别每个区域的功能;然后,将缺乏语义信息的出行轨迹转化为具有区域和功能区语义的出行轨迹,并以区域为节点、语义轨迹为边构建居民出行模式图和标签模式图,在图模型构建的基础上提出MulEdge算法来挖掘区域之间由居民出行所形成的频繁关联模式.文中以城市路网数据、POI数据、出租车GPS数据和签到数据作为对象进行实验,结果表明MMoRFTP方法具有良好的性能,其发现的出行频繁模式能为道路规划、交通管理、商业布局等应用提供决策依据.
-
-
郭宇红;
童云海;
苏燕青
-
-
摘要:
已有的隐私保护频繁模式挖掘随机化方法不考虑隐私保护需求差异性,对所有个体运用统一的随机化参数,实施同等的保护,无法满足个体对隐私的偏好.提出基于分组随机化的隐私保护频繁模式挖掘方法(grouping-based randomization for privacy preserving frequent pattern mining,简称GR-PPFM).该方法根据不同个体的隐私保护要求进行分组,为每一组数据设置不同的隐私保护级别和与之相适应的随机化参数.在合成数据和真实数据中的实验结果表明:相对于统一单参数随机化mask,分组多参数随机化GR-PPFM不仅能够满足不同群体多样化的隐私保护需求,还能在整体隐私保护度相同情况下提高挖掘结果的准确性.
-
-
-
丰景春;
艾力;
张可;
王龙宝
-
-
摘要:
分析工程建设监管平台特征,指出平台结构优化的必要性.考虑到不同路径对用户的重要性不同且平台流程复杂,难以统一支持度阈值,采用多最小支持度加权频繁模式算法构建挖掘模型,并根据权值大小对不同路径设置不同的支持度阈值,以尽可能挖掘用户感兴趣的路径集.最后对广西水利建设项目监管平台用户日志进行实验,找出用户频繁访问路径,为平台用户使用体验的优化提供决策支持.
-
-
李克华;
刘志锋;
周从华
-
-
摘要:
语义轨迹具有体积较小、质量较高,更好地反映移动用户的行为模式的优点.近年来不少专家开始关注语义轨迹的研究,并将其应用在了线路预测、朋友推荐、用户背景区分等领域.从语义轨迹中挖掘出代表行为习惯的频繁模式是实现这些应用的技术基础,但在一些场景中还需要分析语义点到达时间的影响,如对大学生行为模式的挖掘,在校大学生活动地点较单一,单纯考虑语义轨迹无法准确的分辨出不同的行为模式.针对这类问题,引入语义点到达时间信息,提出了一种基于到达时间的行为模式挖掘(Mining Behavior Patterns based on arrival time,MBP-at)方法.该方法的基本思路是在移动用户的语义轨迹集合中,首先挖掘每个移动用户的到达时间约束下的频繁语义行为模式,然后计算不同用户语义行为模式之间的相似度,最后通过行为模式之间的相似度对用户进行聚类,每一个聚类代表了具有相似行为模式的用户集合.实验结果表明,该方法具有有效性和高准确性.
-
-
荀亚玲;
孙娇娇;
毕慧敏
-
-
摘要:
大规模且快速增长的数据集处理给频繁项集挖掘(FIM)带来新的挑战.尽管现有一些方法具有出色的可伸缩性,但不能充分利用了原始数据集的计算结果,且给分布式数据集处理带来了过多的通信开销.针对该问题问题,基于Spark平台提出一种高效的并行增量FIM算法(FCFPIM).FCFPIM结合完全压缩频繁模式树(FCFP-Tree)结构实现增量频繁模式的有效挖掘,当存在数据更新时,无需再重新遍历和挖掘原始数据集,充分利用了原始数据集的挖掘结果;并设计了有效的RDD转换策略以实现频繁模式的有效并行挖掘;另外,为进一步提高并行挖掘效率,引入了相关性分组策略来平衡集群计算节点之间的负载.大量的实验结果表明,FCFPIM可以很好地扩展并有效地处理大规模动态数据集.
-
-
杨慧;
刘红岩;
何军;
杜小勇
- 《第二十四届中国数据库学术会议》
| 2007年
-
摘要:
数据流频繁模式挖掘是从实时、连续、有序的数据序列中寻找频繁模式的过程,以往的相关研究通常将该过程分为两个阶段:首先监测数据流中各模式的频率,由于数据流环境对空间与时间的限制,需要对监测模式进行剪裁,因而频率的计算和剪裁需要重复进行;当用户提交查询时,从监控的模式中筛选出满足要求的输出.现有研究都注重解决如何对观测对象进行剪裁,而事实上在计算模式频率时,数据项集中不同数据项间的组合使得频率计算非常耗时.因此,对于高速数据流,算法通常没有足够的时间来处理数据流中的每个事务,这会影响挖掘结果的正确性.针对这一问题提出了一种新的面向高速数据流的频繁模式挖掘算法Delay. 在Delay算法中将模式频率的统计延迟到第2阶段进行,第1阶段只记录"必要信息",这样大大提高了算法所能处理的数据流流动速度的上限.实验结果表明,算法在效率上优于已有算法,LossyCounting和FDPM,尤其是在处理长数据项集数据流时优势更为明显.
-
-
任家东;
孙亚非;
郭盛
- 《第二十四届中国数据库学术会议》
| 2007年
-
摘要:
频繁模式挖掘是数据挖掘领域中很重要的一部分.目前,出现了许多基于约束的频繁模式挖掘算法和交互式算法,但把两者结合起来的算法却很少.提出了一种基于约束的交互式频繁模式挖掘算法IMCFP(interactive mining of constraint-based frequent patterns).首先该算法按照约束的性质来建立频繁模式树,并且只需扫描一遍数据库;然后建立每个项的条件树,挖掘以该项为前缀的最大频繁模式,并用最大频繁模式树来存储;最后根据最大模式来找出所有的支持度明确的频繁模式.另外,该算法允许用户在挖掘过程中动态地改变约束.实验表明,该算法与iCFP算法相比是很有效的.
-
-
-
- 《第19届中国过程控制会议》
| 2008年
-
摘要:
数据挖掘是当今研究的一个热点,传感器实时收集大量的数据,将数据收集与数据挖掘技术结合起来,是现代数据处理技术发展的重要趋势.频繁模式挖掘是数据挖掘中的核心问题,本文针对数据库发生变化时频繁模式挖掘中普遍存在的重复扫描、遍历和计算问题,提出了频繁模式的增量维护算法IM-FPM.该算法充分利用已有挖掘结果来提高效率但又完全独立于上次采用的挖掘方法,并且只需对原始数据库进行一次扫描.实验结果表明,该算法能有效地解决数据库发生变化时的频繁模式增量维护问题。
-
-
葛鹏程;
李建中;
何震瀛;
张兆功
- 《第二十二届中国数据库学术会议》
| 2005年
-
摘要:
近几十年,作为数据应用领域的一个重要方向,频繁模式的挖掘引起了广泛的关注,但由于在大数据量上的频繁模式的挖掘结果数量相当大且结果之间存在某些关系,人们开始寻找一种能够将挖掘结果转换成压缩形式的方法来处里庞大的挖掘结果集,闭合模式的挖掘正是基于这种考虑而产生的.同时,随着生物信息学的不断发展,在生物信息学领域产生了大量新的数据,对新数据的分析为频繁模式和闭合模式的应用提供了广阔的空间.但随着新数据的产生,新的问题也随之出现了,其中一个主要问题就是生物信息学的数据很多是行少列多的,而现有的频繁模式挖掘算法或闭合模式挖掘算法难以适应这种行少列多的数据特点.例如,基因芯片组数据(一种生物信息学数据)通常有1000至100000个列,但是仅有100到1000行,目前已有许多挖掘闭合模式或频繁模式的算法,它们的时间开销是随着每行数据的列数增加成指数增长的,因此对于生物信息学数据,许多现有的频繁模式挖掘算法或闭合模式挖掘算法不能表现出较好的计算效率.本文介绍一种在生物信息学数据上挖掘闭合模式的高效算法.
-
-
宋国杰;
王腾蛟;
唐世渭;
杨冬青
- 《第二十届全国数据库学术会议》
| 2003年
-
摘要:
本文结合数据流和频繁模式挖掘本身的特性,提出了一个启发式分段求解方法.该方法将数据流分成不同的段,利用Hoeffding Bound估算满足求解结果精度的段长度,通过逐段的迭代进行频繁模式的评估,最后估算出所有的模式.然后提出模式维护算法对这些评估模式进行维护.
-
-
刘君强
- 《中国电子学会第八届青年学术年会暨中国电子学会青年工作委员会成立十周年学术研讨会》
| 2002年
-
摘要:
本文提出了一种按深度优先策略挖掘频繁模式的全新算法PseudoProiection.它首创了虚拟投影方法,避免了递归建造与频繁模式数量相同的投影事务子集,不仅投影事务子集不需要附加存贮开销而节省空间,而且计数与投影操作的时间效率也非常高.对比实验表明,PseudoProjection的时间效率比Apriori、FP-Growth和H-Mine高出1到3个数量级,并且空间可伸缩性也大大优于这些算法.
-
-
-
-
-
-
-
-
-
-
-
- 电子科技大学
- 公开公告日期:2022.03.29
-
摘要:
本发明公开了一种基于高效用频繁模式挖掘的电力系统故障检测方法及系统,属于电力系统故障检测技术领域,解决现有技术无法快速挖掘出电力系统故障,从而无法及时获知故障信息。本发明包括:基于历史故障信息初始化数据库,得到初始的故障数据库,其中,故障数据库包括时刻、故障信息和专家结论,故障信息包括系统id属性、ip属性和多个故障内容属性,专家结论是指使用领域知识对故障的重要性的评估;基于故障数据库中各故障内容属性的数据频段构建效用事务数据库;基于效用事务数据库和树状数组优化的效用列表,挖掘高效用频繁模式;根据挖掘的高效用频繁模式,采用关联规则分析技术对电力系统的故障进行分析。本发明用于电力系统故障检测。
-
-
-