首页> 中国专利> 一种面向e-Science环境的多领域Web文本特征抽取系统及方法

一种面向e-Science环境的多领域Web文本特征抽取系统及方法

摘要

本发明涉及一种面向e-Science环境的多领域Web文本特征抽取系统及方法。该方法包括:步骤1,统计目标文本中的字符频度;步骤2,以字符为基本处理单位,逐一抽取以该字符为起点,以频度为1的字符为终点间的字符串;步骤3,统计每个字符串出现频度,按照出现频度对特征词串进行降序排列并输出。本发明将无词典分词技术引入领域文本的特征发现,有效摆脱了传统方法对于领域词典的依赖,一定程度上增强了本发明在多领域科学数据中的移植性和实用价值。

著录项

  • 公开/公告号CN102073647A

    专利类型发明专利

  • 公开/公告日2011-05-25

    原文格式PDF

  • 申请/专利权人 北京科技大学;

    申请/专利号CN200910223524.6

  • 发明设计人 胡长军;赵冲冲;翁彧;赵立永;

    申请日2009-11-23

  • 分类号G06F17/30;

  • 代理机构北京汇信合知识产权代理有限公司;

  • 代理人王秀丽

  • 地址 100083 北京市海淀区学院路30号

  • 入库时间 2023-12-18 02:39:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-01-06

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20131211 终止日期:20141123 申请日:20091123

    专利权的终止

  • 2013-12-11

    授权

    授权

  • 2012-11-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20091123

    实质审查的生效

  • 2011-05-25

    公开

    公开

说明书

技术领域

本发明涉及Web文本特征抽取,尤其涉及一种面向e-Science环境的多领域Web文本特征抽取系统及方法。

背景技术

Khaled Khelif(2007)提出了一种基于本体的信息抽取方法,意在帮助生物学家更为有效地获取专业知识。该方法依赖于对科技文献的语义标注,自动生成领域本体并提供相应信息检索接口。Tara McIntosh(2007)针对传统基于文献摘要分析方法的不足,提出了一种面向生物医学领域的全文信息抽取系统。Ziya Ozkan Gokturk和Nihan Kesim Cicekli等人(2007)借助网络爬虫技术,利用预先设定的正则表达式实现Web页面元数据的抽取与分类。实验中以欧洲杯及欧洲冠军联赛为例,定时下载指定体育站点信息,抽取赛事信息元数据,进而挖掘最新体育发生的赛事。Rodney D.Nielsen和Wayne Ward等人(2008)结合自动教学领域的实际需求,提出了一种文本语义表示方法并进一步证明了其有效性。Veronica Dahl和Baohua Gu(2006)描述了一种用于分析生物医学概念及其关联的文本处理方法。该方法将不同医学概念的语义特性及其在表达方面的语法约束作为分类标准,实现特征短语抽取同时,提高了对于不规则文本的容错能力。B.Martins和H.Manguinhas等人(2009)针对地理信息系统中元数据表示不规范现象(例如:数据不完整或机器不可读),引入了一种基于时间表示的信息抽取系统。该系统借助Web地名词典,使用相对简单的信息抽取方法获取地理时间信息,通过将地理时间与空间信息相互结合,更加全面描述地理信息元数据。Honglei Guo和Huijia Zhu(2009)提出了一种基于语义关联分析的命名实体检测系统。系统通过挖掘词语间的潜在语义关联,有效克服了不同领域间数据分布差异,从而促进了实体识别的精度。Rajib Verma(2009)将Web文本挖掘技术用于互联网用户情感分析,为金融、客户关系以及商业等领域多种复杂应用提供数据支撑。

现有的基于领域的信息抽取方法多依赖领域词典实现文本特征的发现,既不便于实验复现,也不易于其在多领域环境中移植与推广,严重制约了中文信息抽取系统的应用范围。在分析过程中多依赖于领域词典或标注词集的辅助,虽能有效改善具体领域特征的抽取精度,却无法满足多领域信息抽取在系统可移植性方面的实际需求。

下面说明本发明的相关术语:

e-Science环境:e-Science是一种信息化的基础设施,它提供了一种信息化的科学研究环境和平台,使得不同学科领域的研究和科研活动能够有针对性地开发特定的科学研究与应用,应用是e-Science的主轴。

特征发现:依据某种方法或推理发现某类事物的共有特征,在本发明中,是指抽取某些或某类话题的共有属性。

多领域数据模型:能够应用于多个领域的数据模型,即对文本数据的特征抽象,是基于多个领域进行的,是适用于多个应用领域的。

Web文本挖掘:Web文本挖掘是指从大量Web文档的集合C中发现隐含的模式P。如果将C看作输入,将P看作输出的话,那么Web文本挖掘的过程就是从输入到输出的一个映射ξ:C→P。即针对网络文本信息,应用Web挖掘和数据挖掘的方法,抽取潜在的感兴趣的主题或话题,以及针对文本信息的情感倾向性分析。

发明内容

为了解决上述的技术问题,提供了一种面向e-Science环境的多领域Web文本特征抽取系统及方法,其目的在于,将无词典分词技术引入多领域文本特征发现过程,摆脱对于领域词典的依赖;借助对领域主题及其具体事件中共性与个性特征的抽取与分类,动态追踪领域事件发生及其发展变化,并最终形成多个区域性数据中心;通过对各数据中心中领域知识的协同调度,来提高领域信息在全局范围内的利用效率。。

本发明提供了一种面向e-Science环境的多领域Web文本特征抽取方法,包括:

步骤1,统计目标文本中的字符频度;

步骤2,以字符为基本处理单位,逐一抽取以该字符为起点,以频度为1的字符为终点间的字符串;

步骤3,统计每个字符串出现频度,按照出现频度对特征词串进行降序排列并输出。

对目标样本集执行步骤1-步骤3,以产生知识库供目标文本使用。

步骤2中,将停用字符集中的字符的频度保持为1;停用字符集,用于存储所有标点符号以及无实意的助词辅助分词。

步骤2中还记录字符串的长度;步骤3中,对于频度相同的字符串,优先输出长度较长的字符串。

步骤3中,对于具有包含关系的字符串,子集字符串频度加1;而对于相同字符串,字符串频度加1,并去除重复。

还包括步骤4,将输出的字符串作为输入条件,利用TF-IDF方法对测试样本集中共性特征及个性特征予以分类。

还包括步骤5,利用资源描述框架对各区域领域数据中心中局部高频或新发现的主题事件以案例抽象表示;该抽象表示包括案例主体、案例客体和谓词,谓词表示案例主体与案例客体间的二元关系。

还包括:步骤6,基于对各区域性数据中心中确定事件的案例表示,对各区域领域数据中心中局部监控节点中满足一定发生频度的案例进行协同调度。

步骤6包括:

步骤61,定时遍历发送监控节点中所有确定事件案例,挖掘总发生频度或单位时间间隔内发生频度满足预先设定阈值的领域事件,以广播的形式向其他节点发送区域性领域案例;

步骤62,目标节点接收区域性领域案例后,检测目标案例库中是否存在区域性领域案例所属领域主题;若存在,则进一步遍历该主题下所有领域事件,查找与区域性领域案例相似事件案例;其中对于相似的领域案例,合并其特征词汇并更新案例β发生频度,反之,则向该主题添加新领域事件;若目标案例库中不存在任意主题符合区域性领域案例,则为该区域性领域案例创建新的主题。

本发明提供了一种面向e-Science环境的多领域Web文本特征抽取系统,包括:

字符频度统计模块,用于统计目标文本中的字符频度;

字符串抽取模块,用于以字符为基本处理单位,逐一抽取以该字符为起点,以频度为1的字符为终点间的字符串;

字符串频度统计和输出模块,用于统计每个字符串出现频度,按照出现频度对特征词串进行降序排列并输出。

字符频度统计模块、字符串抽取模块和字符串频度统计和输出模块处理目标样本集,以产生知识库供目标文本使用。

字符串抽取模块,还用于将停用字符集中的字符的频度保持为1;停用字符集,用于存储所有标点符号以及无实意的助词辅助分词。

字符串抽取模块,还用于记录字符串的长度;字符串频度统计和输出模块,还用于对于频度相同的字符串,优先输出长度较长的字符串。

字符串频度统计和输出模块,还用于对于具有包含关系的字符串,子集字符串频度加1;而对于相同字符串,字符串频度加1,并去除重复。

还包括主题特征动态追踪模块,用于将输出的字符串作为输入条件,利用TF-IDF方法对测试样本集中共性特征及个性特征予以分类。

还包括领域案例特征表示模块,用于利用资源描述框架对各区域领域数据中心中局部高频或新发现的主题事件以案例抽象表示;该抽象表示包括案例主体、案例客体和谓词,谓词表示案例主体与案例客体间的二元关系。

还包括:领域案例协同调度,用于基于对各区域性数据中心中确定事件的案例表示,对各区域领域数据中心中局部监控节点中满足一定发生频度的案例进行协同调度。

领域案例协同调度,用于定时遍历发送监控节点中所有确定事件案例,挖掘总发生频度或单位时间间隔内发生频度满足预先设定阈值的领域事件,以广播的形式向其他节点发送区域性领域案例;目标节点接收区域性领域案例后,检测目标案例库中是否存在区域性领域案例所属领域主题;若存在,则进一步遍历该主题下所有领域事件,查找与区域性领域案例相似事件案例;其中对于相似的领域案例,合并其特征词汇并更新案例β发生频度,反之,则向该主题添加新领域事件;若目标案例库中不存在任意主题符合区域性领域案例,则为该区域性领域案例创建新的主题。

传统面向领域的信息抽取系统多依赖领域词典或标注词库实现文本特征的挖掘,本发明针对这一不足提出了一种面向e-Science环境的多领域Web文本特征抽取系统及方法。本发明将无词典分词技术引入领域文本的特征发现,有效摆脱了传统方法对于领域词典的依赖,一定程度上增强了本发明在多领域科学数据中的移植性和实用价值。通过对领域主题及其所蕴含具体事件的特征分类,本发明定时抽取领域事件特征,挖掘不同时段的特征词汇,从而实现对领域事件发生及发展趋势的追踪,并逐步形成多个区域性多领域数据中心,为满足科研工作者的多种应用需求提供了良好的数据原型。为了进一步提高领域知识在全局范围内的利用效率,本发明对各数据中心中高频事件予以案例抽象表示,借助对各数据中心中领域事件案例的周期性调度,实现多领域信息的协同与共享。验证试验中大规模采集“中文全文期刊数据库”中科技文献摘要作为测试语料,分别通过多领域文本特征抽取(准确率74.2%,召回率71.5%,F-指标72.82%)、主题特征追踪以及领域知识协同调度三个方面进行原型验证,证明了所用技术的合理性和实用价值。

附图说明

图1是面向e-Science环境的多领域Web文本特征抽取系统整体架构图;

图2是主题特征发现与追踪流程图;

图3是基于RDF的区域性领域知识案例表示实例。

具体实施方式

下面结合附图,对本发明做进一步的详细描述。

面向e-Science环境的多领域Web文本特征抽取系统在设计过程中重点考虑以下三个方面:第一、摆脱领域词典的依赖。多数中文信息抽取系统中领域词典的作用在于切分文本,为特征发现进行数据预处理。但是由于其在数量和更新速度方面的局限性,严重制约了中文信息抽取系统对新事件以及最新领域词汇的发现能力,不利于中文信息抽取系统移植与推广。无词典分词技术的引入,将有效提高中文信息抽取系统的知识学习能力,更加适用于多领域文本的特征抽取与发现。第二、追踪事件特征的发展趋势。任何一种事件的存在都不可能一成不变,伴随着领域知识的发展,事件特征往往会不断更新。面向e-Science环境的多领域Web文本特征抽取系统在检测事件特征同时,兼顾对特征发展趋势的追踪,回溯当前特征根源,为多种应用服务(例如事件关联分析、领域知识脉络挖掘等)提供详实的数据支撑。第三、促进领域知识的共享。e-Science的立意之本在于更为有效地促进众多专家、学者对科学数据的协同与共享。面向e-Science环境的多领域Web文本特征抽取系统结合用户实际需求,建立多个局部领域数据中心,通过协同调度各中心最新领域信息,以此扩大本发明对于局部突发事件在全局范围内的检测速度及知识利用率。

面向e-Science环境的多领域Web文本特征抽取系统整体架构如图1所示。面向e-Science环境的多领域Web文本特征抽取系统由多领域Web文本特征发现、主题特征动态追踪以及领域知识的协同与共享三部分组成。特征发现与抽取过程中,领域专家可根据实际需要提供目标文本,面向e-Science环境的多领域Web文本特征抽取系统抽取并选取具有相似特征Web文本。通过主题特征的不断更新,面向e-Science环境的多领域Web文本特征抽取系统动态追踪各领域主题特征变化趋势并逐步形成区域性多领域数据中心。另一方面,面向e-Science环境的多领域Web文本特征抽取系统对各局部数据中心主题特征予以案例抽象,协同调度最新领域特征,促进领域知识在全局范围内的发现与共享。

下面介绍e-Science环境下Web文本特征发现与抽取。

1)多领域Web文本特征发现

不同于英文,人们以空格作为切分词语的标识符。中文作为一种源于象形文字的语言表达形式,每个字符都可能具有独立的含义,词语间没有明显的分隔标志,必须借助中文分词技术以此实现中文词语自动切分。基于上述原因,大多数领域文本特征抽取系统依赖领域词典,对目标文本进行分词处理。这种方法简单,能够很好地应用于具体领域文本特征发现与抽取,但由于领域词典自身知识结构及更新速度等方面的局限性,不易于多领域环境下推广和移植。

面向e-Science环境的多领域Web文本特征抽取系统将无词典分词技术引入Web文本的特征发现,以适应多领域环境实际应用需求。这里给定目标文本T,领域专家提供的目标样本集SampleDomain(注:这里只提供目标主题样本,而不是具体的领域词典,这将极大提高领域专家使用的灵活性,降低应用复杂度)。FreqList和SplitWordsList用于记录目标文本每个字符出现频率及分词结果。αi和βj分别表示FreqList和SplitWordsList中第i个元素。其中αi=<Char,Freq>,βj=<Word,Freq,Length>。TList为目标文本T最终输出的特征词串。为了进一步提高分词准确率,面向e-Science环境的多领域Web文本特征抽取系统设置了一个停用字符集StopCharacterList,用于存储所有标点符号以及一些无实意的助词辅助分词。具体细节如表2所示。步骤1中,面向e-Science环境的多领域Web文本特征抽取系统首先统计文本T中字符频率,为后续词语切分做准备。然而对于停用集中所出现的字符,始终保持频度为1。步骤2以字符为基本处理单位,逐一抽取以该字符为起点,以频度为1的字符为终点间的字符串,并记录其长度。步骤3统计每个字符串出现频度。对于具有包含关系的字符串,子集词串频度加1;而对于两相同字符串,字串频度加1,并去除重复。最后按照出现频度及其长度对特征词串进行降序排列。当两词串具有相同频度,优先输出长度较长者。FreqList记录目标文本中所有字符以及其出现频率;SplitWordsList用于记录经过中文分词后的目标文本,包括词、词频以及词长。char,freq分别表示测试文本中的出现的字符以及该字符出现的频率;word,freq,Length则表示测试文本在经过中文分词处理后,所包含的词语,频度以及该词语的长度。

领域专家提供的目标样本集,用于训练本发明提供的系统,并产生初步的知识库。目标文本T则是最终测试目标,它需要借助训练产生的知识库。训练知识库是为了便于找到可能相似事件,以提高处理速度。

表2多领域Web文本特征抽取方法

目标样本集SampleDomain是手动选择出来的,其目的在于训练本发明提供的方法,并产生初步的知识库。待样本集输入完之后,就可继续数据实际测试文本。

表3中分别给出“化学”、“生物”两个领域Web文本用于验证方法有效性。样例验证过程中,面向e-Science环境的多领域Web文本特征抽取系统在不借助任何领域专业词典情况下,能够有效地发现如“蒸发器”、“尿素”、“光合作用”、“叶绿素”等隶属于不同领域的特征词汇,有力地增强了面向e-Science环境的多领域Web文本特征抽取系统对于领域新词的抽取与发现能力,为进一步主题特征的分类与追踪奠定了基础。

表3多领域Web文本特征抽取实例

2)主题特征动态追踪

互联网中任意Web主题可由一个或多个具体事件组成,众多具体事件的共性特征决定着主题特征。主题特征发现与追踪就是通过对具体事件特征的分析,挖掘其中共性与个性部分的更新状态,从而实现对主题特征趋势走向的回溯。

实际计算过程中,面向e-Science环境的多领域Web文本特征抽取系统将TF-IDF方法引入主题特征发现过程中。TF-IDF方法的设计理念是通过计算相对词频的办法,过滤掉一些众多文档中均存在而绝对词频又很高的词语。这些词语往往不具有明显主题特征,对于目标文本分类不起实际作用。面向e-Science环境的多领域Web文本特征抽取系统有效利用了TF-IDF这一过滤共性特征的思想,对Web文本主题及事件特征进行分类。不同于传统的TF-IDF应用(以分词后的目标文本作为面向e-Science环境的多领域Web文本特征抽取系统输入),面向e-Science环境的多领域Web文本特征抽取系统基于对多领域文本特征的抽取与分析,将目标文本的特征词串作为输入条件,借助TF-IDF相对频度的计算思想,对测试样本集中共性特征(即主题特征)及个性特征(即事件特征)予以分类。

设α为目标文本T中某特征词串,fα和fα,i分别代表α在T中和样本集第i篇文档中的出现频率,N为本次测试样本集总量,n为包含特征α的样本数量,Th为预先设定阈值。具体计算方法如下:

fαΣi=1Nfα,i×log(N/n)=TopicFeature(Less>)EventFeature(greater>)---(1);用TF-IDF方法,面向e-Science环境的多领域Web文本特征抽取系统有效地将目标样本集中的共性与个性特征词串予以分类,初步建立领域主题与领域事件特征集(如图2中步骤21、22所示)。为了进一步追踪主题事件的发生及发展趋势,计算过程中面向e-Science环境的多领域Web文本特征抽取系统将领域事件特征集划分为确定事件特征集和待选事件特征集两种,用于分别存储已经能够确定发生的事件特征以及一些处于萌芽期的事件特征。当待选事件满足一定出现频度后,即可迁移为确定事件。

表4主题特征发现与追踪流程描述

这里结合表4中描述(上述步骤21-步骤29参见图2),设αTList为某确定事件特征向量,βTList为目标事件特征向量,θTList为某待选事件特征向量。其中ω,ψ,γ分别表示上述三种特征向量中某特征词串。NewTList为可能发现的新事件特征向量,为NewTList中某特征词串,分别对如下三种情况进行讨论:

(1)当相似于βTList时,即存在一定数量的ω.word==ψ.word,则更新所有满足条件特征词串出现频率同时(ω.freq=ω.freq+ψ.freq),确定事件αTList增加一个频度(αTList.freq++)。

(2)当均不相似于βTList,且相似于βTList时,则分别更新待选事件βTList和特征词串γ的出现频率(γ.freq=γ.freq+ψ.freq,θTList.freq++)。

(3)当不相似于βTList,且也不相似于βTList时,则创建新的待选事件特征向量NewTList,并初始化相应数据(NewTList.freq=1)。

在待选事件特征集的不断更新过程中,当存在某待选事件频度大于阈值时(即),迁移该向量为确定事件向量θTList→αTList。随着确定事件集的增加,为了保证主题特征发现与追踪的实时性,面向e-Science环境的多领域Web文本特征抽取系统定时复用TF-IDF方法对确定特征集中的共性特征进行二次挖掘,有力提高面向e-Science环境的多领域Web文本特征抽取系统对主题特征的学习能力。

3)领域知识协同与共享

实际应用过程中领域专家往往期望通过e-Science平台获取到更多的领域信息,以满足其多样的应用需求。针对这一特点,面向e-Science环境的多领域Web文本特征抽取系统将各区域性领域数据中心中所发生局部事件进行资源描述与案例抽象,协同调度分布式监控网络中的局部领域案例,有力提高面向e-Science环境的多领域Web文本特征抽取系统对领域知识的利用率及局部主题事件在全局范围内的检测能力。

31)领域案例特征表示

借助于资源描述框架(resource description frame,简称RDF)出色的资源描述能力,面向e-Science环境的多领域Web文本特征抽取系统对各区域领域数据中心中局部高频(是一个经验值,可以通过实验获得)或新发现的主题事件予以案例抽象表示,设给定案例A,则局部领域案例三元组表示法如下所示:

Local Domain Case=<Case Subject,Predicate,Case Object>            (2)

其中Case Subject表示案例主体,Case Object表示案例客体,Predicate表示谓词,即案例主体与案例客体间的二元关系。根据面向e-Science环境的多领域Web文本特征抽取系统实际抽取需要,定义事件频度(Event Frequency)、事件发生时间(Time)、特征词汇集(Feature Words),所属主题(Topic)以及某特征词汇的包含关系(Has Word)五种谓词属性。

图3中给出具体实例并予以图形化表示。这里案例资源以椭圆形结点表示,特征文本以矩形结点表示,而箭头则代表主体与客体间的具体属性,箭头方向是从主体指向客体。其中,两种资源主题分别由URI(Http://LocalDomainCaseID/FeatureWords和Http://eScience/LocalDomainCaseID)唯一定位,且两资源体主体间存在“Has Feature Words”二元关联。“45”、“2008-08-1114:29:23”、“叶绿素”分别代表三种与案例主体直接连接的客体属性,而如“叶绿素”、“光合作用”、“阳光”等特征词汇则以资源包的形式隶属于资源主体(Http://LocalDomainCaseID/FeatureWords)。

32)领域案例协同调度方法

基于对各区域性数据中心中确定事件的案例表示,面向e-Science环境的多领域Web文本特征抽取系统对局部监控节点中满足一定发生频度的事件案例进行协同调度。给定领域事件案例α和β,A表示案例发送节点,B为案例接收节点,LocalKBA,LocalKBA分别表示A和B所对应的确定事件案例库。其中α∈LocalKBA,β∈LocalKBB,Δt为时间间隔,Th和ThΔt分别表示案例总频度阈值及时间间隔Δt内频度增量阈值。

具体方法如表5所示,步骤2中面向e-Science环境的多领域Web文本特征抽取系统定时遍历发送节点A中所有确定事件案例,挖掘总发生频度或单位时间间隔内发生频度满足预先设定阈值的领域事件,以广播的形式向其他节点发送区域性领域案例α。步骤3中目标节点B接收案例α后,检测目标案例库中是否存在案例α所属领域主题。若存在则进一步遍历该主题下所有领域事件,查找与之相似事件案例。其中对于相似领域案例α、β,合并其特征词汇并更新案例β发生频度;反之(即不存在相似案例),则向该主题添加新领域事件。若目标案例库中不存在任意主题符合案例α,则为该案例创建新的主题。

表5领域案例协同调度方法

本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号