首页>中文会议>工业技术>自动化技术与计算机技术>全国搜索引擎和网上信息挖掘学术讨论会

全国搜索引擎和网上信息挖掘学术讨论会

召开年：2003
召开地：北京
出版时间： 2003-03-01

主办单位：中国计算机学会

会议文集：搜索引擎与Web挖掘进展

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.一种用于数据挖掘的频繁项目集计数算法
- 赵伟;李庆忠
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本文对基于关联规则的数据挖掘算法进行了研究,对经典的频繁项集计数算法进行了改进,提出了一种新的候选项集数据存储结构设计和候选项集支持度的计算方法.
2.规则路径表示下XML数据查询的动态规划方法
- 公民;洪晓光
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本文介绍了对有规则路径表示的XML数据查询的处理方法,包括传统的处理方法、改进的处理方法及相关的理论基础;然后提出了用动态规划算法对XML数据查询的处理进行优化,包括设计步骤和具体算法;最后对全文内容进行了简要总结.
3.主题搜索引擎的探讨
- 厉亮;蒙应杰;赵书城;董礼英
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：主题搜索引擎是主题Web信息博物馆的关键组成部分.本文重点探讨了以敦煌学主题Web信息为样本的主题搜索引擎信息采集策略,并给出了一种比较理想的主题搜索引擎设计方案.
4.一种评价搜索引擎信息覆盖率的模型及其验证
- 孟涛;闫宏飞;李晓明
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：搜索引擎的网页搜集子系统通常都以WWW的网页构成的有向图结构为依据,从一个网页到达它所链接的其他网页,如此递归下去,不断扩大搜集的信息覆盖面.本文以这种覆盖能力为研究对象,建立量化模型从多个角度考察网页搜集系统对WWW信息资源的覆盖程度.文章首先分析了搜集系统搜集网页不完全性的若干因素,指出信息覆盖率这一概念的研究意义,由此提出了三类比较重要的信息覆盖率概念,它们分别是数量覆盖率、质量覆盖率和可视WWW信息的覆盖率.本文的主要研究工作围绕其中前两类展开,在建立"采取—权值计算—验证"的覆盖率评测模型之后,以北京大学"燕穹"网页信息博物馆为考察对象并获得其搜集的网页数据,以不同的方式对中国Web进行取样.采用PageRank和HITS这两类典型的权值算法计算出其中的重要网页作为样本,从量和质的角度上考察"燕穹"网页信息博物馆的信息覆盖率,得到合理的数量和质量覆盖率实验数据,从而验证了"燕穹"系统信息覆盖率结论的合理性和该信息覆盖率评测模型的可靠性.
5.kNN与NB算法在中文网页分类上的比较研究
- 龚笔宏;冯是聪
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：针对中文网页,比较研究了kNN和NB分类算法.主要的实验结果有:(1)kNN的分类质量明显优于NB;(2)即使是同一个算法对于不同领域的文档,其分类能力也是各有差异的.从总体而言,NB算法对不同类别比较敏感,是一种不稳定的分类算法,kNN的分类质量受领域的影响不大.
- 机器学习;
- 中文网页分类;
- kNN;
- NB;
- 评测;
- 数据集;
6.网页分类技术研究及系统实现
- 沈抖;孙建涛;丛艳;陆玉昌
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS<'[1]>)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和SVM等分类算法实现了网页的多层次多类别的分类.文中结合网页分类中的网页表示、特征提取、分类算法等技术讨论了HCS的设计、实现及其特点.实验结果表明HCS所采用的方法是有效的.文章最后指出了改进该系统的方向.
7.基于词间相关性分析的查询结果重排算法
- 金澎;刘毅;刘伟
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：传统的检索系统,认为文档和查询之间的相关性仅仅取决于文档和查询之间的共同出现的词,既不考虑那些在查询中出现而不在文档中出现的词,也不考虑那些在文档中出现而不在查询中出现的词对二者之间相关性的影响.本文结合Internet搜索引擎的检索对象篇幅较小、主题单一的特点,提出"主题关键词"这一新的概念;在此概念的基础上,利用词间相关性,给出一个切实可行的对检索结果进行重新排序的算法.
8.一个基于决策树的中文Web文本挖掘系统
- 杜阿宁;方滨兴;胡铭曾
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：在Web挖掘的基本概念、基本应用和一般文本分类的基础上,本文从系统功能、模块设计和核心算法三方面详细介绍了一个具有自学习能力的基于决策树的中文Web文本挖掘系统.
9.Igloo分布式爬虫系统的性能优化
- 叶允明;马范援;于水;张岭
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：Web爬虫是搜索引擎和Web信息检索系统的重要基础.本文介绍了一个大型分布式爬虫系统Igloo 1.2版所采用的性能优化措施.它采用分布式的系统结构,通过有效的性能优化方法,如高速通信与优雅爬行的折中、URL Trie快速数据结构和基于"滞后合并"策略的URL数据库存取算法等,使系统能进行高性能的爬行,同时又不影响Web服务器和网络的正常运行.实验表明,Igloo具有高性能和稳定的特点.
10.嵌入IE的搜索引擎集成工具的设计和实现
- 韩近强;陈华
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：搜索引擎已经成为人们上网必不可少的工具.随着IE 5.0对嵌入工具栏的支持,各个搜索引擎纷纷推出了自己工具栏,但这些功能相似的工具栏占据了大量的用户浏览区域,我们开发的"天网搜霸"有效地解决了这个问题.它集所有搜索工具栏于一身,实现了大部分搜索工具栏常用的功能,并提供了独特的搜索引擎分类功能.除此之外,它还能帮助我们得到多个搜索引擎的日志,便于我们对这些搜索引擎进行横向比较与评测.本文将介绍这种用户可以自定义的嵌入IE浏览器的搜索引擎集成工具栏的设计和实现.
11.文本分类中一种基于词类间概率分布的特征选择算法
- 邢昊;张凌
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：特征选择在文本自动分类中扮演了比较关键的角色,本文在词的类间概率分布基础上,使用分布函数的区分度和相似度,将噪声词的去除和保留词的聚类相结合,提出了一种新的文本特征选择算法,实验结果表明,该算法具有较好的性能效果.
12.专用搜索引擎中信息采集的预测与过滤方法
- 李振星;任继成;唐卫清;唐荣锡
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：Web信息急速膨胀使搜索引擎专用化成为发展趋势.有效定向采集过滤专业信息成为搜索引擎一个重要研究方向.本文提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析,对未知网页的相关性的预测来控制信息的采集.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约网络资源.
13.基于XML的Web信息提取
- 刘世杰;杨冬青;唐世渭;王腾蛟;李立宇
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：Internet高速发展,信息量书刊号膨胀.通常用户关心的可访问Web信息并不是存放在数据库系统中,而是在HTML页面中.HTML是一种显示描述语言,缺乏结构和元数据信息.通过浏览器,人可以非常直观地获取自己关心的知识和信息,但是计算机却难以理解这些HTML文档.这给信息集成、信息交换、Web知识挖掘、Web信皮的精确查询带来极大的不便.本文提出一种新的基于XML技术的Web信息提取算法.本算法分为三个阶段:HTML页面的模式提取;HTML页面的特征匹配;Web信息的内容提取.本算法已经在COMMIX原型系统中初步实现,兼顾了通用性和高精确度,取得了很好的效果.
14.Web文本检索中信息的分布特性与检索策略研究
- 张敏;马少平
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本文通过对Web文本中信息分布特性的考察,重点研究了网页内容、网页内向链接结构、网页链接文字和URL四个部分的信息特征,并针对每种特性的信息分布,提出新的检索策略,是对传统信息检索模型的一种改进.文中提出主特征域和主特征空间的概念,在传统词的权重计算中引入主特征词信息因子,改进检索效果.并将网页的内向链接作为主要依据,对Web中的多主题文档进行分段检索.在TREC大规模测试数据集合上的实验表明,综合考虑四种信息的分布特性,将不同的检索策略结合起来,可有效地大幅度改善检索性能.
15.高级文件搜索引擎核心功能的实现技术
- 陈华;李晓明
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：基于Web的FTP文件搜索引擎作为专门查找文件的工具越来越受到人们的关注.虽然FTP搜索引擎技术上没有像WWW搜索引擎那样复杂,但近年来一些FTP搜索引擎展示的施工方便实用的功能也蕴含着许多技术挑战.这些功能的实现使得FTP搜索引擎在使用上越来越方便,查全率和查准率大大提高,促使了FTP搜索引擎从专业性比较高的工具变成了大众化的获得网络文件资源的入口,为更有效地利用网络共享资源提供了方便.本文基于北大"天网文件搜索引擎"的各种新兴功能实现策略,提出了从简单FTP搜索引擎发展成具有强大功能的高级文件搜索引擎的方法与技术要点.
16.本体的形式化模型及在语义查询中的应用
- 王洪伟;吴家春;蒋馥
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本体是概念化的一个显式的规格说明,能够将领域中的各种概念及相互关系显式地、形式化地表达出来.本文首先介绍了本体的基本概念,然后利用描述逻辑建立了本体的形式化模型,并提出了本体术语包含关系的检验算法,最后根据所建的本体模型探讨了4种信息查询模式.
17.特殊用途FTP搜索引擎的实现及优化
- 杜正平;陈昱;朱穗晖
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：基于Nosey Parker的FTP搜索引擎的配置和优化特点,本文探讨了特殊用途FTP搜索引擎的系统原理和优化方向,为用户带来方便.
18.基于关键词与概念相结合的混合信息检索模型
- 李宏乔;樊孝忠;李良富
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本文在向量空间模型和概率推理网络的基础上提出了一个基于关键词与概念相结合的混合信息检索模型.该模型能够融合关键词检索和概念检索的优势,弥补它们的不足,而且能够根据不同的需求调整模型参数,以获得最佳的信息检索效果.实验体现了该模型的可行性.
19.基于用户选择的搜索引擎算法研究
- 卢效峰
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：现有的搜索引擎没有充分利用用户的选择,为此我们提出一种充分利用用户选择的新的搜索引擎算法,它使用平均用户选择概率的差商来不断校正关键词和页面的相关度,通过与现有搜索引擎算法的结合,可以取得关键词和页面的最佳相关度.
20.搜索引擎技术分析
- 张国印;李健
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本文首先介绍了搜索引擎现状及其工作原理,然后给出了搜索引擎中的几项关键应用技术:机器人、信息检索、自然语言理解、可扩展标记语言等,最后结合当前搜索引擎最新的几个研究热点:人机界面技术、索引/匹配技术、信息采集技术、信息服务智能化,探讨了搜索引擎的未来发展和改进目标.
21.SLMBSVMs-KNN:一种新的网页分类算法
- 张亮;叶允明;于水;马范援
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本文首先提出了一种基于最小损失的支持向量机模型(SLMBSVMs),该模型中参数n反映了两类错误损失率的比值.随后,借助SLMBSVMs的特性构造两个SVM并将其与KNN相结合提出了一种SLMBSVM与KNN相结合的网页分类算法,实验证明,该算法是切实有效的,具有较高的精确度.
22.基于HTML标签分析的网页加权索引策略
- 金澎;刘毅;刘伟
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本文受传统信息检索中对文本结构信息挖掘的启发,针对Web页面特点,提出基于HTML标签处理的加权策略,用于Internet搜索引擎.引言简单介绍纯文本信息检索中的词加权方法;第二部分在纯文本文档的加权公式tf<'*>idf的基础上,结合HTML标签特性,给出一个新的索引词加权公式;实验部分用布尔模型和扩展布尔模型分别对这两种方法进行了比较.结果表明采用布尔模型时,后者在系统的查准率和查全率方面都要优于前者.
23.名人网页的相关度评价
- 昝红英;苏玉梅;孙斌;俞士汶
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果.系统在北京大学天网搜索引擎的基础上,运用中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果的排序合理性,提高了名人网页检索服务的质量.
24.多尺度网络时序数据挖掘
- 王鹏;单保慈;曾振柄;刘武;段海新;吴建平
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：网络安全日志数据库是一种历史数据,对它的分析具有十分重要的实际价值.作为一种时序数据库,针对它的信息挖掘已研究出许多方法.本文提出了一种新的对此类时序数据库的信息挖掘方法,即将数据库中要分析的某一个属性序列首先进行信号化,信号化后的数据可以应用信号分析领域的处理方法对其进行分析和信息挖掘.为避免傅里叶变换在时域上无局部化能力的弱点,本文采用小波变换多分辨率分析的方法,对信号化后网络安全日志数据库中的数据在不同的时间尺度上进行分析和信息挖掘,从中提取出单位时间内网络受到攻击次数的时间周期规律.该方法充分利用了小波变换的时频局部化能力.本文还对这种方法的分析特性进行了阐述,我们看到利用小波阈值重建的方法对原始信号数据进行去噪处理,也收到了良好的效果.
25.国内网页数量的预测
- 王继民
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：根据CNNIC的调查报告与北大天网实际搜集所提供的数据,本文对过去和未来国内网页数量作了一个估测.主要结果有:自1994年WWW在中国登录以来(截止2002年底),全国共消失网页数近4亿左右,新建网页数约有8.5亿左右;2004年初国内网页数量将超过10亿;国内网页数量每13个月翻一番.
26.一种基于信息表征的图像检索方法
- 孟祥增;王翔英;钟义信
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：随着多媒体技术和因特网迅速发展,网上的图像资源日益丰富,图像检索成为重要的研究课题.本文提出了一种基于信息表征的图像检索方法,给出了图像的内容属性的表征方法以及利用改进的信息测度公式衡量图像相似性的方法.文中还给出了利用这种方法进行网上图像检索的初步实验结果.实验表明,这种图像检索方法对改善检索结果的相关性具有很好的效果.
27.基于网页内容的网站地理位置信息提取
- 高朝华;郑璇;罗英伟;汪小林;许卓群
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：随着互联网的快速发展,对网上信息的研究方兴未艾.其中,自动建立网站网址和其拥有所属地的对应关系是一项特别有意义的工作.本文通过总结网页中地址信息的出现规律,给出了一些自动识别地理位置的规则.利用这些规则,可以很方便地识别一个中文网页的所在地.同时,这些规则在实践中是很容易被扩充和完善的.同时我们对应用这些规则而得到的结果进行了检验,得到了令人满意的覆盖率和正确率.
28.识别网页上的表单和表结构
- 吴扬扬
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：如何从Web这个巨大的信息库中获取所需的信息是近年来的研究热点之一.由于人们的表达习惯,Web网页上有许多信息,特别是关系信息常常以表单(list)或表(table)的形式出现,自动地识别这些结构是Web内容挖掘的重要工作之一.本文提出了一种基于逻辑结构分析的识别方法,可实现自动地识别Web上的各种形式不同的、带有不同HTML标记的表单和表结构.
29.一种基于统计信息的无字典中文文本特征提取算法
- 齐攀;陈晓云
- 《全国搜索引擎和网上信息挖掘学术讨论会》 | 2003年
摘要：本文对当前基于字典的中文自动分词方法的弊病进行了分析,提出了一种使用字频、串频和词频等统计信息进行中文文本无字典特征提取的算法.通过对算法的描述和分析,我们可以发现该算法从性能和效果来看,较同类基于字典的方法而言,是有一定的优越性的.