首页>中文会议>工业技术>自动化技术与计算机技术>第三届全国搜索引擎和网上信息挖掘学术研讨会

第三届全国搜索引擎和网上信息挖掘学术研讨会

召开年：2005
召开地：北京
出版时间： 2005-09-26

主办单位：中国计算机学会

会议文集：清华大学学报（自然科学版）

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.含有位置坐标树的Web页面分析和内容提取框架
- 封化民;刘飚;刘艳敏;方勇;北京邮电大学;宋国森
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难.针对HTML的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTML文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容.对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78﹪的准确率。
2.训练集类别分布对文本分类的影响
- 张启蕊;张凌;董守斌;谭景华
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇.在复旦大学语料库上使用类别均衡法,分别用Naive Bayes和Rocchio方法分类,前者的宏平均F1从48.62﹪提高到了80.99﹪,后者的宏平均F1从64.58﹪提高到80.26﹪,微平均F1从73.99﹪提高到80.47﹪.实验结果显示,类别均衡法显著提高了分类性能。
3.检索主题难易度评价
- 吕学强;北京信息科技大学;赖治国;孙斌;俞士汶
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：TREC2004 Robust任务有一项新要求,就是要把检索主题按照从易到难的顺序排列.针对新的要求,提出了基于单词歧义性大小的检索主题难易度模型.根据WordNet和它附带的Brown语料库构造了单词义项分布词典,再把检索主题中的单词按歧义性大小分为7类,通过计算平均单词容易度来度量检索主题的难度.实验结果表明,该模型有一定的预测能力.最后用此模型预测了TREC2004 Robust任务的250个检索主题的难易度。
4.基于投影法的图像检索
- 温小斌;康耀红;李太君
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：全局颜色直方图无法体现图像颜色的空间分布情况,为了克服这一缺陷,提出了利用投影法进行图像检索的算法.利用HSI颜色模型,把图像的色调、饱和度和亮度分量分别在水平和垂直两个方向上投影,得到6个投影直方图.色调和饱和度的投影直方图反映了颜色的空间分布,而亮度的投影直方图则体现了图像的形状.然后,使用这6个投影直方图的前三阶中心矩作为特征,计算图像间的距离.实验结果表明,该算法检索速度快,具有较高的查全率和查准率。
5.细粒度语义网检索
- 吴刚;唐杰;李涓子;王克宏
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：语义网的有向标记图数据模型决定其在内容检索方面与纯文本、超文本或半结构化文档检索存在较大差异.现有检索模型和相似度计算方法不能完全满足对语义网的检索和评价.该文以资源这种较细粒度作为检索单元,考虑查询关键字在资源内容中的频率和结构分布,提出一个细粒度语义网检索模型,并扩展了相似度计算公式和倒排索引结构.在语义网挖掘系统(semantic web aiding rich miningsystem,SWARMS)中实现了该模型及相关算法.在SourceForge和DBLP两个测试集上的实验表明,该模型能够结合语义网结构查询与基于关键字的内容查询,在相同查全率下查准率是单独应用结构或内容查询的两倍左右。
6.词汇与中心词的距离信息对问句相似度匹配的影响
- 闫宏飞;陈翀
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：在问答式信息检索中引入基于frequently askedquestions(FAQ)的辅助模块满足常见问题的回答是一种有效的手段,其中关键问题是用户提出的问句与FAQ中问句的相似度比较,找出FAQ中最相近的问句,并返回对应的答案,作为对用户问题的解答.该文设计实现了一种FAQ辅助模块,并试图发现词汇与中心词的距离信息对于问句相似度匹配的词汇权重的影响.使用两组不同的测试集进行评测,实验表明,采用词汇与中心词的距离信息计算问句相似度,其影响能力弱于文档频率的作用,但是在相似度阈值0.5的情况下,两种方法均没有错误判断。
7.一种基于自适应小波不变矩的色情图像过滤方法
- 徐欣欣;袁华
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：随着互联网络和多媒体技术的发展,色情图像在网络上的传播越来越泛滥,该文旨在研究如何有效过滤这些色情图像.该文提出一种基于自适应小波不变矩的皮肤纹理检测方法,首先利用统计颜色空间模型分割出疑似皮肤区域,再利用自适应小波不变矩来描述皮肤的纹理特征,该特征具有平移和缩放不变性.最后将该方法用于色情图像的过滤,通过对752幅色情图像和5 000幅正常图像的过滤实验,结果表明该方法具有较好的准确率和检出率。
8.WebSifter:个性化网络搜索辅助系统
- 蒋宗礼;肖华;赵钦
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：传统信息检索技术不能很好地满足不同兴趣、不同背景和不同时期用户的查询请求.个性化网络搜索辅助系统WebSifter通过提取用户相关信息对网络搜索结果进行综合、过滤和排序来克服这个问题.系统包括信息采集、行为分析、兴趣集生成、结果生成等模块;利用显性和隐性相结合的方法采集用户兴趣,用线性回归模型分析用户行为;提出了用户兴趣集的多级资源描述模型.它能够动态地抽取用户行为与用户兴趣的关系,并且通过多级资源描述有效地利用用户过去和当前的兴趣来处理搜索结果。
9.基于核方法的潜在语义文本分类模型
- 罗远胜;王明文;曾雪强
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳.而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高.为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型.该模型比LSC模型能更好地表示文档空间的潜在语义结构信息.在Reuter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能。
10.一个增量搜集中国Web的系统模型及其实现
- 孟涛;闫宏飞;王继民
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：针对中国Web的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力.提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理.针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案.对增量搜集的两类目标--变化网页和新网页,探讨了相应的搜集策略.介绍了该模型的实现和性能状况.该文的工作为增量搜集系统的设计和实现提供了一个成功的模型。
11.基于投影寻踪回归文本自动分类的模型
- 廖海波;万中英;王明文
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的.投影寻踪正是一种稳健的、非参数化的维数约简方法.提出了一种基于投影寻踪回归的文本自动分类模型.应用该模型,可以真实地描述高维数据的客观内在规律,从而达到提高文本分类精度的目的,岭函数拟合函数的合理选择是提高分类精度的关键,故对拟合函数的选取做了初步的研究.采用标准文档集Reuters-21578进行了分类实验,同时在相同的预处理条件下,与目前常用的方法进行了对比实验.实验结果表明,该模型对文本自动分类具有较高的召回率和准确率。
12.元搜索引擎中基于用户兴趣的个性化调度模型
- 徐科;黄国景;崔志明
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：元搜索引擎的调度策略是研究元搜索引擎如何为用户选择数量合适并贴近用户查询需求的成员引擎,以较小的资源耗费,帮助用户获得较高的查询质量.该文提出了基于兴趣分类采样的成员引擎特征表示的方法和基于用户兴趣的成员引擎个性化调度算法.调度算法根据用户的兴趣计算出各成员引擎与用户查询的相关度,为用户选择最具有潜在有用的多个成员引擎来为用户提供查询服务.实验表明,该模型提高了用户的检索效率和质量。
13.基于统计学和语义信息的中文文本主题识别技术
- 冯晋;李春平
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：由于中文分词处理的复杂性在一定程度上限制了中文信息抽取技术的发展,因此,快速有效地抽取中文文本主题的需求越来越突出.该文主要通过中文分词技术、频繁词查找和词性组合计算来分析词与词之间的关联并最终提取出能够表达文章内容的主题词汇,同时还对这些词汇作了记分和排序.读者能够通过这些词汇来判定文章的主题和重要内容.通过对人民日报语料进行实验表明,该方法正确率能够保持在66﹪以上,同时对于网页邮件等真实文档也有较好的测试结果。
14.基于信息提取的面向行业应用文本分类算法
- 郭峰;徐玉生;陈晓云;王颖
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：目前,传统文本分类算法都是脱离自然语言语意的.该文使用信息抽取进行了中文文本分类的研究,提出了补偿式信息抽取的主题文本分类算法(CIETC),通过分类补偿文档属性,达到行业文档分类的目的.实验中,以将关于一个人名的所有网络文档自动分类为例,验证了这种面向行业的CIETC分类器的分类性能.结果表明:该方法的分类准确率要优于Bayes方法,与KNN方法相当;该方法是一种可行的面向行业细分文本分类方法。
15.基于语句-词条矩阵的聚簇式动态增长聚类算法
- 孙辉;陈晓云;马志新
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤:预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性。
16.视频分割和关键帧提取统一框架
- 封化民;方卫;刘森;方勇;燕山大学;宋国森
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：镜头边缘检测是视频处理应用的重要环节.随着视频编辑技术的快速发展,以往的方法已不适应由视频特技产生镜头的边缘检测.以"画中画"技术造成的错检最为常见,因此,在时域多尺度边缘检测的基础上,提出以分块色彩直方图为特征,用SVM模式识别工具和滑动窗口技术,对视频帧进行分类的新方法.通过21 h(10250个镜头)的新闻视频测试表明可达到更高的准确率和召回率.该框架基本上解决了"画中画"技术造成的错检问题,对渐变的检测亦有较高的准确率。
17.可扩展的分布式信息检索的设计与实现
- 许静芳;李星
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：为了弥补集中式信息检索系统在覆盖率、更新率、访问权限控制、专业性及网络负载等方面存在的缺陷,设计并实现了一个可扩展性强的分布式信息检索系统,采用统计信息及查询日志描述各节点的信息资源,提出基于日志的CORI算法进行资源选择.实验结果显示,维护该系统所需的存储空间、更新时间及网络传输量等仅为集中式信息检索系统的1﹪左右,系统的可扩展性较强.提出的基于日志的CORI算法较传统CORI算法在查全率-查准率指标上提高了9.8﹪,在Kendall'S τ距离指标上提高了8.1﹪,是一种有效的资源选择算法,提高了分布式信息检索系统的检索性能。
18.基于生物序列模式提取技术的邮件过滤算法
- 陈蔚然;董守斌
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：为了解决垃圾邮件过滤问题,考虑到中文垃圾邮件的特点和过滤系统的效率要求,应用生物信息化技术中模式提取算法TEIRESIAS的原理,设计了基于生物序列模式提取技术的垃圾邮件过滤算法BioMatrix,并实现了基于此算法的中英文邮件过滤系统.过滤系统由数量控制过滤提供垃圾邮件训练集,通过提取其中的特征模式对邮件进行分类,可以识别出约94.2﹪的垃圾邮件,误过滤率约0.04﹪.与Bayes过滤算法对比的实验结果表明,将生物序列模式提取技术应用于邮件过滤具有较好的研究和实用价值。
19.基于站点资源的主题提取算法
- 郭立山;董守斌;袁华
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的URL将网页按站点分组;然后在每个站内结合网页内容和站内链接关系来计算网页的权值,从而找出站内的Hub网页;接着再分析站间的链接关系进一步计算各网页的最终权值,从而找出站间的Hub网页.两组对比的实验结果表明,HAC算法能找到切合主题的更大的Hub站点。
20.模板化网页主题信息的提取方法
- 欧健文;董守斌;蔡斌
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2 588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5﹪.将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50﹪,检索的速度和精确度也得到提高.
21.基于离散核支持向量机的文本自动分类
- 傅鹏;张德运
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息.该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果.证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系.在Reuters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度。
22.SCC--利用分类技术改进的短摘要比较方法
- 龚笔宏
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：搜索引擎返回结果的摘要的特点在于文档长度短，大部分关键字最多只出现一次，因此传统文档比较方法所使用的TF-IDF、夹角余弦等方法对摘要比较失去了作用。为了改进传统文档比较方法，该文利用分类技术对短摘要信息进行扩充，以改进摘要比较。将两个摘要分别与参照物进行比较，在较大的一个文档集合中找到与摘要相近的文档集合。用这些文档集合扩充短摘要的含义，以替代短摘要来衡量摘要相似度。实验结果表明，使用改进后的摘要比较算法，相关集合的DCG指标有了明显改进。
23.基于概率模型的名人网页相关度评价
- 刘晓莉;彭波
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：天网知名度系统是根据用户预定信息提供个性化检索的信息服务系统.该文提出了一种基于概率模型的名人网页相关度评价模型.改进Okapi BM25公式,引入HTML标记权重系数针对不同领域名人特点引入名人属性权重系数.分别采用伪反馈和用户反馈两种方法进行相关反馈,实现对评价模型中权重参数的自动优化.实验表明,该模型有效地提高了系统相关度评价质量,并且发现用户反馈的效果受实体属性信息词数影响,属性信息越丰富反馈后性能提高的概率越大。
24.一种词汇共现算法及共现词对检索系统排序的影响
- 陈翀;彭波;闫宏飞;王继民
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法--FDC.算法中考虑了词汇在文档中的共现频度、相对距离和共文档率.从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LSI)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果.Discounted cumulative gain(DCG)评估结果表明,本算法获得的共现词在99﹪的置信度下对原始排序的相关性有改进;而LSI方法获得的共现词对排序相关性也表现出同样显著的改进效果.结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法。
25.基于文档重排的索引压缩技术
- 纪蕾;陈英
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法--Star-Scan算法.该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文档编号(DocID)之间的差值所需要的字节数,达到提高索引压缩率的效果.在TREC12数据集上进行的多个实验表明,与随机排列相比,通过Star-Scan算法重新排列后的倒排表在Delta编码方式上压缩率平均提高了大约30.22﹪,从而有效地提高了搜索引擎的效率。
26.基于混合模型的中文命名实体抽取系统
- 王睿;张洁;张由仪;于禛;姚天昉
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：中文命名实体抽取的研究,存在分词、领域和方法三个方面的问题需要解决.解决方案是:利用规则,对机器分词后的文本进行修正;提出"群山"模型,对不同领域制定不同的语言学规则;以统计学方法和语言学方法结合,对不同命名实体采用不同的方法等.根据实验结果,得出以下结论:分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结合比采用单一方法有效。
27.基于潜在语义的多类文本分类模型研究
- 叶浩;王明文;曾雪强
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型.因此,提出一种基于潜在语义的多类分类模型.该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来.其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类.在Reuters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定。
28.基于Markov网络的信息检索扩展模型
- 左家莉;王明文;王希
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：为了解决信息检索性能较差的问题,查询扩展将索引项之间的关系以及文档之间的相似度引入到检索中,这个过程可以通过构造知识网络来进行.Markov网络是一种有效的知识关联图形表示方法,可以从实例数据训练获得.本研究提出并实现了基于Markov网络的信息检索扩展模型,通过对文档集的学习,构造了关于索引项和文档的Markov网络,将有利于检索的信息加入到检索中.实验表明,基于Markov网络的信息检索扩展模型优于BM25模型。
29.基于Web挖掘的领域本体自动学习
- 方卫东;袁华;刘卫红
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：为获取领域本体并量化概念关系的可信度,提出了一种基于Web挖掘的学习模型.通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并.模式可信度、概念语义距离与关联特征决定了概念间关系的可信度.通过"文本分析-本体获取-文本扩充"的迭代过程,优化模型参数和阈值.该模型解决了现有本体学习方法对词典或核心本体的依赖性、以及不能对关系进行可信度量化的问题.实验证明了所提出模型的有效性。
30.最大频繁项集挖掘中搜索空间的剪枝策略
- 马志新;陈晓云;王雪;李龙杰
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：最大频繁项集挖掘可以广泛应用在多种重要的Web挖掘工作中.为了有效地削减搜索空间,提出了一种新的最大频繁项集挖掘中的搜索空间剪枝策略.这种策略基于深度优先遍历词典序子集枚举树,利用树中子节点与父节点扩展集中相同项的扩展支持度相等的特性,对搜索空间进行剪枝.应用该策略,对MAFIA算法进行改进优化.实验结果表明,该剪枝策略可以有效削减搜索空间,尤其在稀疏但包含长频繁项集的数据集上,搜索空间削减掉2/3,算法的时间效率比原MAFIA算法提高3～5倍。
31.基于混沌的异常数据的动态识别与挖掘
- 王建州;马志新;李廉
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：异常数据的识别与挖掘是非常重要的数据分析之一,在传统的数据分析中往往将异常数据的影响最小化或剔除它们,这可能导致重要的隐藏信息的丢失.该文提出了一种时间序列中异常数据检测与挖掘的新方法,首先计算出时间序列相邻两个点之间的斜率,再与混沌预测斜率相比较以检测出数据的偏差点集,其次对偏差点集进行动态方差检测以确定其异常数据集.该算法较好地解决了异常数据分析中的"屏蔽效应"及异常数据识别不能具体量化的缺陷。
32.识别和抽取XML文档中的关系信息及其出现模式
- 雷庆;吴扬扬
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取.实验结果表明提出的XML相似度计算方法能较好的实现目标文档的识别,同时采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据。
33.基于DWLMS模型的分布式Web用户访问模式挖掘
- 张克君;李伯群;李欣;杨炳儒
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：大型网站为了提高访问效率,通常建立多个镜像站点,这导致获取网站全局的用户访问模式知识变得困难.该文提出一种分布式Web日志挖掘模型DWLMS,并以路径分析技术为例,提出了基于DWLMS的局部频繁路的更新算法LFP和全局频繁路径的更新算法GFP,解决了Web访问信息的异地存储、实时增长、分布式算法通讯量等因素给模式分析过程带来的困难.对提出的算法进行了实现和实际日志数据的测试,结果证明了算法的有效性。
34.基于不完全信息的One-class支持向量机
- 赵英刚;何钦铭;浙江大学;陈奇
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：标准的单值支持向量(One-class SVM)机不能对含有不完全信息的输入样本进行学习分类.为此该文提出用区间数来对不完全输入信息进行描述,将不完全的信息输入扩展为区间向量形式,引入区间运算来取代原来分类函数中的运算,从而根据区间运算结果来对信息不完全的模式输入进行分类.使用该方法,在分类过程中能够充分利用区间表示的先验知识,同时也能够减少该过程中输入模式中的属性(特征)度量代价,理论分析和实验结果均表明该方法能最大程度地保证分类结果的一致性,是有效和可行的。
35.基于混合向量空间模型的主题网站识别
- 董宝力;太原科技大学;祁国宁;顾新建
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：为了实现面向特定领域网站的网络资源搜索,提出了一种描述网站主题特征的混合向量空间模型.利用链接文本信息来描述同类主题网站的内容和组织结构所具有的相似特点,而不是由网站链接的树或图结构反映.在向量空间模型的基础上,抽取反映网站结构和内容的文本特征信息,建立网站主题的特征向量模型.在此基础上进行制造企业网站的主题搜索,采用类中心向量法进行了网站主题分析.结果表明:该模型适合于网站主题的特征描述,有助于提高网站主题识别与分类的准确性和效率,在主题搜索和网站分类等应用中具有较好的适用性。
36.搜索引擎用短语词典建设
- 吕学强;北京信息科技大学;苏祺;孙斌;俞士汶
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音.委托北京大学计算语言学研究所进行了手工整理标注.为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性.共整理短语119 984条,噪音短语比例约占7﹪.当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。
37.Deep Web爬虫研究与设计
- 郑冬冬;赵朋朋;崔志明
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：随着Web的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由Deep Web后台数据库动态产生的.在这种情况下,信息集成就更加需要Web爬虫来自动获取这些页面以进一步地处理数据.为了帮助用户完成这样的任务,提出一种用于搜集Deep Web页面的爬虫的设计方法.此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自Web站点的导航模式来识别自动填写表单时所需进行的路径导航.通过对来自不同领域的Deep Web站点的大量实验,验证了此方法是非常有效的。
38.基于潜在语义空间维度特性的多层文档聚类
- 刘云峰;齐欢;HU Xiangen;CAI Zhiqiang;代建民
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：为实现文档在不同概念层次下的自动聚类,研究了潜在语义空间中维度的统计特性,发现对应大奇异值的维度描述了语义元素间的共性,对应小奇异值的维度描述了语义元素间的特性,呈现出潜在语义空间维度与概念粒度之间隐含的对应关系.基于这种认识,通过采用不同维度来实现文档在不同概念粒度下的聚类,并获得了很好的聚类准确率.另外,在基于潜在语义分析的文档聚类算法中,采用文档自检索矩阵的行向量,代替低维文档向量作为聚类对象,获得了更好的聚类准确率.
39.基于加权近似支持向量机的文本分类
- 庄东;陈英
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》 | 2005年
摘要：随着因特网的迅速增长,能够分类大规模文档的高效文本分类算法变得非常重要.该文提出一种基于加权近似支持向量机模型的文本分类算法,加权近似支持向量机对近似支持向量机作了改进,通过为每个训练误差增加一个权值和使用在原空间直接求解的算法,克服了近似支持向量机模型不适合不平衡数据分类和高维数据分类的缺点.试验结果表明,与标准支持向量机算法相比,该算法的分类质量与训练速度都有提高,是一种适合文本分类的高效算法。