首页> 中国专利> 开放式文档同构引擎系统

开放式文档同构引擎系统

摘要

一种信息安全技术领域的开放式文档同构引擎系统,其中:物理结构模块接受各种文档的输入,并将文档的物理结构输出给逻辑结构模块;逻辑结构模块对物理结构模块输入的信息进行处理得到文档的逻辑结构,并将该其输入到词法及句法分析模块;词法及句法分析模块接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,并将得到的该文档输入概念抽取模块;概念抽取模块对词法及句法分析模块输入的信息进行处理得到由文档中的词转化出的概念及概念属性,并将得到的该概念及概念属性输入主题表示模块;主题表示模块对概念抽取模块输入的信息进行处理得到以概念为单位的文档主题。本发明解决了针对多格式文档无法统一处理的问题。

著录项

  • 公开/公告号CN101114281A

    专利类型发明专利

  • 公开/公告日2008-01-30

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN200710045451.7

  • 发明设计人 刘功申;杨金升;王士林;

    申请日2007-08-30

  • 分类号G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构31201 上海交达专利事务所;

  • 代理人王锡麟;王桂忠

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-12-17 19:41:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-10-22

    未缴年费专利权终止 IPC(主分类):G06F17/27 授权公告日:20091021 终止日期:20130830 申请日:20070830

    专利权的终止

  • 2009-10-21

    授权

    授权

  • 2008-03-19

    实质审查的生效

    实质审查的生效

  • 2008-01-30

    公开

    公开

说明书

技术领域

本发明涉及的是一种信息安全技术领域的系统,具体是一种开放式文档同构引擎系统(ODIE-Open Document Isomorphic Engine)。

背景技术

在内容安全领域,基于文本信息的内容安全产品都必须对文本进行语义理解和不良信息过滤。这类产品都面临着一个统一的问题,即从各式各样的文档中提取出用于理解和过滤的纯文本信息。由于现实中文档格式的复杂和多样性,所以大多数系统都回避了这个难点问题,从而导致这些系统准确率低。

目前获得纯文本信息的过程有两个难点问题:(1),如何处理多种多样的原始文档格式,并从中获得纯文字信息。根据结构化程度的不同,现实中的各种电子文档可以分为结构化文档(如,XM)、半结构化文档(如,HTML,DOC,WPS,PDF等)和自由文档(如,TXT)三类。自由文档仅包含文本内容,获得纯文本信息极其简单。而结构化文档和半结构化文档包含了文本内容和大量的标记(Tag)信息,因此获得纯文本信息的过程就相当复杂。如果考虑到各种文档格式的版本差异,获得纯文本信息的问题就更加复杂了。因此,能够用一个统一的方法来处理多种多样的原始文档格式是一个关键问题。(2),如何对文字信息进行统一描述,并使其适用于包含内容安全在内的各种应用系统。除内容安全系统外,基于文本内容的信息过滤、文本自动分类、信息检索等都需要对多格式文档的预处理。设计一个能够适用于各种系统的统一描述将是一个关键问题。

开放式同构引擎的目标是从多种多样的文档格式中获取文本内容及其所代表的语义,并提供给其它高层系统使用。多格式文档的同构化可使其他应用系统摆脱文档分析这个难点,而只专注于系统本身的专有技术。文档同构化是基于内容的信息安全、自动分类、自动标引、自动检索等相关研究的基础性工作。

经对现有技术文献的检索发现,论文:Document Logic Structure ByMachine Learning,IEEE Conference on Machine Learning and Cybernetics,2002,12(基于机器学习的文档逻辑结构分析,IEEE机器学习和控制论会议,2002年12月)提出了开放式文档层次模型(ODLM-Open Document Layer Module),该模型根据自然语言处理相关技术的实际需要,引文把开放式文档层次模型分为物理结构层、逻辑结构层、词法和句法分析层、概念抽取层、主题表示层等5个层次。通过5个层次,ODLM细化了整个电子文档分析的过程,描述了各个层次的具体内容,为电子文档分析提供了一个清晰层次框架。但是并没有一个完整的可以具体应用的系统。

检索中还发现,Document Logical Structure Analysis Based onPerceptive Cycles(基于感知回路的文档逻辑结构分析),引文出处:LectureNotes in Computer Science 3872,PP.117-128.Springer-Verlag BerlinHeidelberg 2006(计算机科学报告,3872卷,117-128页,2006年,德国海德尔堡Springer出版社出版)。该文献用神经网络的方法把图像文档(或光学扫描文档)的逻辑结构识别出来,但仅集中在逻辑结构分析上。其缺陷和不足如下:1)主要目标是仅是分析出文档逻辑结构;2)直接从图像文件分析文档逻辑结构,在识别逻辑结构之前无抽象的接口——文档物理结构识别;3)由于无文档物理结构这个中间接口,仅仅能够处理单一的文档格式,而不是可以处理多种多样的格式;4)未能提供涉及词、句、概念、主题等层次的服务。

发明内容

本发明的目的在于克服现有技术的不足,提供一种开放式文档同构引擎系统,使其能够用于提取多格式文档的纯文本内容及其所代表的语义,解决了针对多格式文档无法统一处理的问题,可应用于语义和互联网内容安全分析类项目。

本发明是通过以下技术方案实现的,本发明包括5大功能模块,按信息处理的先后顺序依次为:物理结构模块、逻辑结构模块、词法及句法分析模块、概念抽取模块、主题表示模块,其中:

所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种文档的输入,并将文档的物理结构输出给逻辑结构模块,物理结构模块还为整个系统提供规范的数据;

所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该文档的逻辑结构输入到词法及句法分析模块;

所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块;

所述概念抽取模块自动概括出文档包含的概念,它接收词法及句法分析模块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属性,概念抽取模块将得到的该概念及概念属性输入主题表示模块;

所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文档的向量空间模型(VSM)表示,它接收概念抽取模块输入的信息,并对该信息进行处理得到以概念为单位的文档主题。

所述的物理结构模块,它的输入包括具有各式各样格式的电子文档(例如,  TXT,XML,HTML,字符扫描文件,DOC,WPS,PD等等)信息。物理结构模块输出的文档的物理结构是由无格式的字符(例如,英文字母、汉字等)、字符对应的格式信息、轮廓信息组成。物理结构能够识别出回车换行符,也就是说能清晰地区分开自然段。另外,物理结构应该标明原始文档的语种(例如,英语、汉语等等),同时,如果语种是汉语,原始文档的编码格式(例如,GB、BIG5等等)也应该在物理结构中标出。电子文档具有各式各样格式,不便于信息处理。一般情况下,电子文档包含了″多格式″的″异构信息″,通过物理结构模块将这些″异构信息″进行同构化,也就是用统一的规范来表示这些异构信息。

所述的物理结构模块是由标记提取出纯文本、文本对应的格式信息,而忽略掉垃圾信息。所述的文本对应的格式信息可以分为两种:字符格式信息和段格式信息。字符格式信息是用来描述单个字符的。段格式信息是用来描述段的。

所述的物理结构模块包括段落规范化子模块、格式信息标准化子模块、消除噪音子模块、文章特征识别子模块、小标题识别子模块、小标题纠错子模块和生成逻辑结构树子模块,其中:

所述段落规范化子模块输入含有误用硬回车的不规范文档,去掉文档结构中硬回车不规范使用,并将修正了硬回车误用后的文档输出给格式信息标准化子模块;

所述格式信息标准化子模块接受段落规范化子模块的输入,把物理结构层获得的格式信息在逻辑结构层进行大粒度统一,并将格式标准化后的文档输出给消除噪音子模块;

所述消除噪音子模块接受格式信息标准化子模块的输入,去除文章中的非正文信息部分,并将去掉了这些噪音后的文档输出给文章特征识别子模块;

所述文章特征识别子模块接受文章特征识别子模块的输入,判断各个自然段的逻辑类别,并将标示出了自然段逻辑类别的文档输出给小标题识别子模块;

所述小标题识别子模块接受小标题识别子模块的输入,利用自动机识别有标号小标题,利用特征识别无标号小标题,并将明确标示了有标号小标题和无标号小标题的文档输出给小标题纠错子模块;

所述小标题纠错子模块接受小标题识别子模块的输入,纠正原文作者的笔误,并将纠错后的文档输出给逻辑结构树生成子模块;

所述生成逻辑结构树子模块接受小标题纠错子模块的输入,把文档逻辑结构描述成逻辑结构树形式,并将文档的逻辑结构树输出给逻辑结构模块。

所述的逻辑结构模块,其主要任务是识别出文档各个部分的逻辑类别。逻辑结构标明了原始文档各个部分的逻辑类别(例如,题目,作者摘要,作者信息,关键字,正文,各级标题,参考文献等),并且用逻辑结构树来描述整个文档。具体的是用机器学习的方法识别原始文档各个部分的逻辑类别,识别出各级小标题(有标号小标题和无标号小标题),并对小标题进行级别确定和纠错处理,形成能够表达原文层次关系的逻辑结构树。

所述的词法及句法分析模块,依据带有属性描述的关键词词典,采用词法分析和句法分析相结合对文本中的句子进行分析、标注,所述词法分析给出了多个候选的词切分和词性标注序列。所述句子分析方法是在词法分析的基础上运行词性修饰关系,句子模式标注出句子的成分(主、谓、宾)。本发明给句法分析的词性修饰关系,句子模式用概率来表示,计算出句子分析结果的正确概率。根据句子分析的正确概率,可以反过来从候选的词分析结果中选择一个序列出来。

所述的概念抽取模块,其输出是由文档中的词转化出的概念以及概念的几个属性,即概念在文中出现的频率、概念在文中的位置、概念的分布性。由于受地域、时间等社会因素的影响,广泛意义上的词已经非常泛化,有必要用概念把它们加以概括整理,概念抽取模块实现该功能。概念抽取模块以知网(How-Net)、WordNet(美国普林斯顿大学研发的词汇网络)、《同义词词林》为基础构造概念库,以概念库为基础,结合转换算法求出文档包含的概念,并给出概念的相关属性。

所述的概念抽取模块,其概念抽取核心问题是概念库结构和对概念库的访问。所述概念库组织方式是:概念条目和零、一、二、三级扩展字串有较高同义度;概念条目和四、五级扩展字串的同义度较低;概念条目和六级扩展字串的同义度最低。为了快速地访问概念库,采用了哈希技术把零级和一级扩展字串按字典序排列,并且,每个字串都可映射到相应的概念条目。

所述的主题表示模块,根据选择,采用概念频率、概念位置、布尔权重、TFIDF(Term Frequency Inverse Document Frequency,词频-反文档频率)型权重、基于信息熵的权重(部分方法要求文档集支持)等方法计算概念的权重,然后把文档以向量空间的方式表示,降维方法采用阀值控制的方式实现。

本发明基于一个基础理论——开放式文档层次模型实现的。根据自然语言处理相关技术的实际需要,开放式文档层次模型(ODLM-Open Document Layer Module)分为物理结构层、逻辑结构层、词法和句法分析层、概念抽取层、主题表示层等5个层次。以ODIE为核心的系统应用架构自底向上分为原始文档层、ODIE和应用程序层三大部分。ODIE的核心是根据ODLM模型的指导对多格式文档进行分析和处理,从而分为符合ODLM模型的五个层次。应用程序层可以从ODIE引擎获得不同质量的服务(对应于ODLM模型的五个层次),以适应应用程序层的不同需要。

与现有技术相比,本发明能够用于提取多格式文档的纯文本内容及其所代表的语义。本发明在物理结构和逻辑结构分析过程中,充分提取并利用了字体、字号、轮廓等格式信息和特征字符串信息,也就是全信息。本发明采用概念来表示文章的主题,概念比词更加规范,其权重计算也将更加准确。可扩充性体现在用户可以集成新得文档格式到该引擎,以支持特殊文件格式处理;服务多样性,应用程序能根据需要从该引擎获得不同层次的服务。本发明系统可应用于语义和互联网内容安全分析类项目(例如,垃圾邮件防范系统、中文自动摘要系统、互联网舆情分析与监测系统等),并达到了实际应用水平。

附图说明

图1本发明系统结构框图

图2本发明应用实施例架构框图

图3本发明应用实施例文档逻辑结构分析过程示意图

具体实施方式

下面结合附图对本发明的实施例作详细说明。本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

如图1所示,在ODLM理论的指导下,本发明实现了一个适用于实际环境的引擎——开放式文档同构引擎(ODIE)系统。根据自然语言处理相关技术的实际需要,在理论上把电子文档的处理过程分为5个层次,它们分别是:物理结构层、逻辑结构层、词、句法分析层、概念抽取层、主题表示层等5个层次。在技术实现时,5个层次分别对应于物理结构模块、逻辑结构模块、词法及句法分析模块、概念抽取模块、主题表示模块。

所述的物理结构模块定义了文档各个部分的物理安排和布置,它接受各种文档的输入,并将文档的物理结构输出给逻辑结构模块,物理结构模块还通过运算为整个系统提供规范的数据;

所述逻辑结构模块规定了文档的各个逻辑元素及其类别,它接收物理结构模块输入的信息,并对该信息进行处理得到文档的逻辑结构,逻辑结构模块将该文档的逻辑结构输入到词法及句法分析模块;

所述词法及句法分析模块给出文本中各个句子的词分割标记、词性标注和句法标注,它接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,词法及句法分析模块将得到的该文档输入概念抽取模块;

所述概念抽取模块自动概括出文档包含的概念,它接收词法及句法分析模块输入的信息,并对该信息进行处理得到由文档中的词转化出的概念及概念属性,概念抽取模块将得到的该概念及概念属性输入主题表示模块;

所述主题表示模块根据用户的选择计算出每个概念的权重,然后给出该文档的向量空间模型(VSM)表示,它接收概念抽取模块输入的信息,并对该信息进行处理得到以概念为单位的文档主题。

如图2所示,以ODIE为核心的系统应用架构自底向上分为原始文档层、ODIE和应用程序层三大部分。ODIE的核心是根据ODLM模型的指导对多格式文档进行分析和处理,从而分为符合ODLM模型的五个层次。应用程序层可以从ODIE引擎系统获得不同质量的服务(对应于ODLM模型的五个层次),以适应应用程序层的不同需要。

第一,物理结构分析:为了适应未知文档格式加入本系统,该部分设计了一个可扩展的接口。本实施例以HTML为例,其分析过程如下:

HTML用于编制可以在不同的平台上实施链接的超文本文件。HTML的标记可以表达超文本的新闻、邮件、文档及超媒体。本实施例的物理结构模块是在这些标记中提取出纯文本,文本对应的格式信息,而忽略掉垃圾信息。文本对应的格式信息可以分为两种:字符格式信息和段格式信息。字符格式信息是用来描述单个字符的。段格式信息是用来描述段的。

所述的标记,对于HTML格式的文档而言,<P>表示一段纯文本;font-size,用CSS格式表示文字的大小;<Li>表示文字是标题性文字。

所述的标记,对于PDF格式的文档而言,obj<XXX>stream,表示文本和字体格式流。

所述的标记,对于WORD,WPS格式的文档而言,内部采用OLE(Object Linkingand Embedding)编码模式,需要应用软件附带接口读取文字和相应的字体格式。

所述的标记,对于txt格式的文档而言,由于它是自由文档,因此,可以直接读取到文本。Txt格式的文档没有字体格式信息。

分别列举如下:

字符格式信息(C表示字符):

font_absolute_size(C)={0,1,2,...,N}。表示该字符的字体绝对大小。

font_relative_size(C)={BIG,EQUAL,SMALL}。表示该字符的字体相对于正文的大小。文献[95,96]的都只注重了字体的绝对大小,但是,字体的相对大小有时比绝对数更有作用。例如,title字体大小的主要特点是一般比正文的大,而不取决于它的绝对字体大小。

font_style(C)={0,1,2,...,N}。表示该字符的字体风格(字体风格已经映射到自然数集)。

font_color(C)={0,1,2,...,N}。表示该字符的字体颜色(字体颜色已经映射到自然数集)。

段格式信息(P表示段):

alignment(P)={LEFT,CENTER,RIGHT}。它们分别代表该段左对齐、右对齐、居中。

width(P)={BROAD,EQUAL,NARROW}。三个取值表示该段相对于正文的宽度较宽、相等、较窄。

type_of(P)={CHARACTER,TABLE,FIGURE,OTHER}。表示该自然段是文字,表格,图形或其它。

indent(P)={0,1,2,...,N}。表示该自然段的缩进字符数。

第二,逻辑结构分析:一篇结构化的文档可被分成多个部分,比如″标题+正文+附加信息″就是最简单的划分方法。很多研究表明,出现在不同部分和位置的词对主题的贡献是不一样的。因此在提取主题前,预先获得其所在部分与位置的信息是相当重要的。逻辑结构模块的作用就是分析文档的整体结构,将文章的标题(包括主标题、副标题、各级小标题等),以及句子在文章的位置(首段、尾段、段首、段尾等)都剖析出来。这样获得的文本结构信息对于后续的特征提取有着很重要的作用。

如图3所示,文档逻辑结构分析过程。物理结构模块实现逻辑结构分析包括段落规范化、格式信息标准化、消除噪音、文章特征识别、小标题识别、小标题纠错和逻辑结构树的生成等步骤。段落规范化是去掉不规范使用甚至误用硬回车。消除噪音模块是为了去除本不该属于文章内容的部分,例如网络新闻中的相关链接、广告等。文章特征识别判断各个自然段的逻辑类别。小标题识别模块利用自动机识别有标号小标题,利用一些特殊特征识别无标号小标题。小标题纠错模块的功能就是纠正原文作者的笔误。最后,把文档逻辑结构描述成逻辑结构树形式。学习功能增加了逻辑结构层的适应能力。离线学习通过对手工标注文档进行处理,形成知识库。知识库是逻辑结构层运算的规则来源。在线学习利用可视化界面对系统进行示教,从而使系统具有适应能力。上述逻辑结构分析内容分别采用以下的子模块来实现:

段落规范化子模块的功能是去掉文档结构中不规范使用甚至误用硬回车。其输入是含有误用硬回车的不规范文档,其输出是修正了硬回车误用后的文档。

格式信息标准化子模块的功能把物理结构层获得的格式信息在逻辑结构层进行大粒度标准化。经过标准化后,原来只作用于字符的格式信息,扩展到作用于一个完整的句子或自然段。例如,在一个句子中有大于80%(可调整阀值)的字符是黑体字,那么,在逻辑结构层就认为整个句子的格式信息为黑体字。

消除噪音子模块的功能是去除本不该属于文章内容的部分,例如网络新闻中的相关链接、广告等。其输入是含有广告链接、相关新闻链接等非正文信息的文档,其输出是去掉了这些噪音后的文档。

文章特征识别子模块的功能判断各个自然段的逻辑类别。其输入是没有明确标示逻辑类别的文档,其输出是标示出了自然段逻辑类别的文档,此时,就可以知道那个部分是文档的标题、文档的正文了。

小标题识别子模块的功能利用自动机识别有标号小标题,利用一些特征识别无标号小标题。其输入是没有明确标示小标题的文档,其输出是明确标示了有标号小标题和无标号小标题的文档。

小标题纠错子模块的功能是纠正原文作者的笔误。其输入是小标题标示模块的输出,这时的小标题标示由于原文作者的笔误还可能有错误,例如,作者把“1.2.1”误写为“1.3.1”,此模块可以把这种笔误修复过来。其输出就是做了纠错工作后的文档。

生成逻辑结构树子模块的功能是把文档逻辑结构描述成逻辑结构树形式。其输入是小标题纠错子模块的输出,其输出是文档的逻辑结构树。

第三,词、句法分析:自动分词是自然语言处理界的一个非常基本的问题,包括机械式分词法和理解式切词法两种,两者无严格的先后次序。本实施例词法及句法分析模块采用词法句法综合分析的方法,分析过程采用了基于常用的语法树库概率模型。

第四,概念抽取:概念抽取的核心问题是概念库结构和对概念库的访问算法。本实施例概念抽取模块的概念库组织方式是:概念条目和零、一、二、三级扩展字串有较高同义度;概念条目和四、五级扩展字串的同义度较低;概念条目和六级扩展字串的同义度最低。为了快速地访问概念库,采用了哈希技术把零级和一级扩展字串按字典序排列,并且,每个字串都可映射到相应的概念条目。

参见表1概念条目层次扩展表,表示了代表词“香港”和文章中相关字串关系。例如,“香港特别行政区”和“香港”是含义相同的字串。字串“新界”和“香港”有上下位关系,但却不能完全代替。当在文章中遇到相关字串时可以规范为香港这个词的系数向量。例如,如果文档中出现了“香港”x次,“新界”y次,则该文章可以由概念香港来代表的系数为:1×x+0.5×y。表1如下:

扩展层次包含内容示例系数零级扩展一级扩展二级扩展三级扩展四级扩展五级扩展六级扩展代表字串涵义完全相同字串直接相关(子串查询并去除错误的涵义)常识知识下位、部分、场所、材料上位(包括同一层次)扩展虚拟节点(递归扩展)香港香港特别行政区、香江、香海港督、港币、香港经济、港澳台一国两制、董建华香港岛、九龙和新界中国110.50.250.1250.0630.031

第五,主题表示:主题表示包含特征选择和加权方法两个内容。主题表示模块使用概念抽取模块的算法,一篇文档可以抽取出一系列的概念,这些概念都对文档具有一定的代表作用。特征选择是选取最能够代表一篇文档的一组概念,并组成一个向量。本实施例的加权算法采用了概念对文档的代表系数。例如,一篇文档可能包含概念“香港”,代表系数为1.5;概念“政治”,代表系数为10;概念“选举”,代表系数为0.5;…。则该文档的主题表示为:(政治,10;香港,1.5;选举,0.5;…)

本实施例可扩充性体现在用户可以集成新得文档格式到该引擎系统,以支持特殊文件格式处理;服务多样性,应用程序能根据需要从该引擎获得不同层次的服务。本实施例系统可应用于语义和互联网内容安全分析类项目(例如,垃圾邮件防范系统、中文自动摘要系统、互联网舆情分析与监测系统等),并达到了实际应用水平。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号