Heritrix
Heritrix的相关文献在2007年到2021年内共计70篇,主要集中在自动化技术、计算机技术、信息与知识传播、无线电电子学、电信技术
等领域,其中期刊论文65篇、会议论文2篇、专利文献3篇;相关期刊48种,包括人天科学研究、现代物业、军民两用技术与产品等;
相关会议2种,包括2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIB&OSS2011)学术研讨会、全国第十届Java技术及应用大会等;Heritrix的相关文献由124位作者贡献,包括于红、冯艳红、史鹏辉等。
Heritrix
-研究学者
- 于红
- 冯艳红
- 史鹏辉
- 周学广
- 孙庚
- 张皓
- 刘高军
- 卿秀华
- 唐新民
- 夏景隆
- 季士妍
- 张东升
- 彭威
- 景晓军
- 李丹
- 李波
- 李禹生
- 杨颂
- 樊多妮
- 欧阳柳波
- 沈奇威
- 沈智杰
- 王艳玲
- 顾保磊
- 万杰
- 何婧
- 何洋
- 关巍
- 刘仁君
- 刘伟光
- 刘博卿
- 刘文浩
- 刘晓飞
- 刘洪基
- 华京生
- 卫文学
- 叶晓波
- 吕焱飞
- 吴伟
- 吴振强
- 吴进
- 周文勤
- 喻培烽
- 孙敏
- 孙静
- 孟庆浩
- 孟祥成
- 季节
- 屠星月
- 崔乐乐
-
-
季士妍;
赵丹阳
-
-
摘要:
本文详细介绍网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略,简述国家图书馆基于Heritrix3.4的增量采集实现方法和实验效果,以期为业界提供有益的参考和借鉴.
-
-
魏大威;
季士妍
-
-
摘要:
文章介绍了国家图书馆网络信息资源采集与保存发展历程和技术发展,分析了基于开源架构进行定制开发的网络信息资源采集与保存平台的构建架构、功能特点,介绍了网络信息资源增量采集、增量回放显示功能实现的关键技术和方法,并对网络信息资源采集与保存未来的发展进行了思考.
-
-
王松;
刘洪基;
叶晓波
-
-
摘要:
通用搜索引擎存在不能有针对性地满足用户查询需求和搜索关键词难以准确描述的问题.从数据挖掘和机器学习的角度出发,提出一种基于网络爬虫开源框架Heritrix的可配置主题的聚焦爬虫方法,从指定的站源,根据不同的爬取策略,启动多线程爬取,按照预先设置的关键字和栏目信息进行分类搜索,把最符合条件和要求的信息爬取下来供选择、判断、分析和利用.这种方法可在一定程度上解决搜索引擎查询信息的需求问题,提升用户体验,提高检索效率.
-
-
徐飞;
郑秋生;
高艳霞
-
-
摘要:
目前美国、加拿大和澳大利亚等国的Web Archive(网页归档)技术和方案比较多,有些也比较成熟,部分已经成功应用.在我国也有网页归档的应用,但对采用的技术方案和具体工具的研究很少.结合国外的网页归档技术和最新的云存储技术,提出了一种适合我国的网页归档和存储的技术方案.
-
-
张林
-
-
摘要:
As to the vast video information and its loose distribution, a vertical search engine is especially designed for video information through lucene and heritrix. With BKDRHash algorithm, a pointed video research is implemented. Web pages capture, content filtering and index set-up are integrated to greatly decrease the consumption the system, changes the traditional method to capture the whole page by the search engine, filter the useless information. It is creative in picking up page information and picking process of playing linking.%针对目前精品课程网站视频信息多、分布散的特点,通过lucene与heritrix,设计了专门针对视频信息的垂直搜索引擎,使用BKDRHash算法,实现了对视频信息的针对性搜索。搜索时将网页抓取、内容筛选和建立索引的过程结合在一起,大大减少了系统的开销,改变了以往传统搜索引擎网页全文收录的做法,筛选了无用信息,对页面信息的提取,以及播放链接的提取过程具有一定的创新性。
-
-
孙静;
李亚龙;
万杰
-
-
摘要:
随着网络科技的发展,用户对搜索引擎提出更高要求,专业搜索引擎应运而生并不断发展壮大。对地震专业搜索引擎进行系统研究,提出一种基于网络爬虫Heritrix和开源全文信息检索包Lucene的专业检索解决方案,完成信息资源抓取、镜像文件建立及索引、搜索等关键操作的建立。%With the development of the internet technology, it is demanding to have enhanced search engine with great precision. Enterprise search engine is then proposed and advanced for such purpose. We systematically studied the search engine for seismology and implemented an enterprise search solution based on Web-based crawler Heritrix and Lucene which is an open source full-featured text search engine. The key functions in our system include acquiring information, creating image ifles, building indices and searching.
-
-
张亚凤;
郑山红
-
-
摘要:
通过扩展 Heritrix相应组件来抓取特定网页,实现预定的抓取策略,并加入 APHash算法对URL进行散列,达到了多线程抓取网页的目的,极大地提高了抓取数据的效率。%By extending related components of Heritrix to crawl a specific page,some predetermined crawling strategies can be realized.The APHash algorithm is introduced to hash the URL for multi-threaded web page crawling,so the efficiency of data capture is improved.
-
-
牛涛
-
-
摘要:
本文针对国家和省级质量技术监督局在其官方网站发布的重大质量新闻事件、产品召回信息、产品质量信息等相关内容的高效捕捉,提出建立基于Solr平台的质量信息检索系统,阐述了构建基于Solr平台的质量信息检索系统的主要模块,并对该系统检索的结果进行呈现.通过实验结果证明本文所述系统可有效满足人们对相关质量信息的查询需求.
-
-
谭翔纬1
-
-
摘要:
针对高校软件教学中有效学习资源获取困难的现状,拟通过对开源的网络爬虫框架Heritrix进行二次开发,在爬虫的网络资源识别、数据筛选等功能点上开展研究工作,提出一种基于主题的数据采集方案,并在此基础上实现一种基于指定主题的网络爬虫系统,以满足高校软件教学对高质量学习资源的需求。
-
-
谭翔纬
-
-
摘要:
针对高校软件教学中有效学习资源获取困难的现状,拟通过对开源的网络爬虫框架H eritrix进行二次开发,在爬虫的网络资源识别、数据筛选等功能点上开展研究工作,提出一种基于主题的数据采集方案,并在此基础上实现一种基于指定主题的网络爬虫系统,以满足高校软件教学对高质量学习资源的需求.