首页> 中国专利> 使用语言查询的文本分析系统和方法

使用语言查询的文本分析系统和方法

摘要

本发明公开了一种使用语言查询的文本分析系统和方法,能从网络上获取中文文本信息,并作出分析,从而提取所需知识。本发明使用中文分词和语言查询语言(LQL)技术。透过中文分词技术,能对中文文本进行词的切分,并对所切分出的词进行词性标注。LQL技术对被切分和被标注的中文文本,进行LQL分析,并提取知识。本系统还提供了一种错误校正分析,用于删除错误被提取的知识。本发明的优点在于,非电脑程式员也能简单地设定LQL规则。同时,本发明是独立于文本内容的网络格式和结构,大大增强了收集信息的范围。本发明适用于网络信息提取、商业情报挖掘、信息聚合、网络知识库建立等应用领域。

著录项

  • 公开/公告号CN104346382A

    专利类型发明专利

  • 公开/公告日2015-02-11

    原文格式PDF

  • 申请/专利权人 香港理工大学;

    申请/专利号CN201310330423.5

  • 发明设计人 倪伟定;蔡日星;蔡一帆;

    申请日2013-07-31

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构深圳市瑞方达知识产权事务所(普通合伙);

  • 代理人纪媛媛;张秋红

  • 地址 中国香港九龙红磡

  • 入库时间 2023-12-17 04:14:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-08-29

    授权

    授权

  • 2015-03-11

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130731

    实质审查的生效

  • 2015-02-11

    公开

    公开

说明书

技术领域

本发明属于计算机科学领域中的网络分支,具体涉及一种使用语言查询 的文本分析系统和方法,适用于网络信息提取、商业情报挖掘、信息聚合、 网络知识库建立等应用领域。

背景技术

随着互联网的高速发展,网络上的信息呈爆炸式增长,人们越来越习惯 在网络上获取信息。然而,由于网络上的信息太多,即使有了网络搜索工具, 人们还很难找到所需要的信息。此外,网络上也经常出现许多不相干的噪音 信息,尽管很多信息是能被检索到,但其内容可能是不相干或不准确的。

因此,人们希望出现一种智能工具,根据用户的意愿,帮助人们摈除噪 音,在大量的信息中,筛选出真正需要的信息。

传统的自然语言处理(NLP)系统,能利用自然语言处理技术,如分词 性标注,分类树,同义词,索引典等,从文本的内容,提取当中的意义。大 量的计算机程序也因此被开发出来,以从这些经NLP加工后的文本内容, 提取知识。但是,计算机程序的开发通常是非常耗时。此外,随着时间推移, 便需要更多的计算机程序以提取新的知识,这使整个分析系统的维护费用变 得昂贵。在很多时候,由于被提取的知识是含糊不清,还需要人工核实和校 正。

中国发明专利申请申请号为200810142630.7和200910104805.X提出利 用分类树对文本进行分析的文本分析系统。然而,该系统高度依赖于博客或 网页的结构,以作为系统的输入。对于许多文本分析系统,由于内容的来源 (如从不同新闻网站的新闻文章,微博的内容)可能不具有良好或相同的结 构,这意味着每一个网站或每一个网页便需要相对应的规则。此外,该内容 的来源结构可能随时间而发生变更,所以每当该结构发生变化时,分类树也 必需重建,这都是不具有成本效益的。

美国专利申请公开号2011/019671和PCT国际公布号WO2012/099970 A1提出品牌估值系统。该系统收集品牌网站销售和传输数据,以评估品牌 的价值。它也试图比较不同品牌,以创建在某一个行业的品牌指数。但该系 统的问题是,收集竞争对手网站的销售和流量数据是相当困难的。从理论上, 如果一个组织可以从不同公司收集得到数据,该指数是可以被建立的。然而 在实际上,因为销售数据通常是高度保密,所以这是不可行的。

发明内容

根据以上问题,本发明公开了一种使用语言查询的文本分析系统和方法。 本发明使用中文分词(Chinese Segmentation)和语言查询语言(Linguistics  Query Language,LQL)技术。透过中文分词,能对中文文本进行词的切分, 并对所切分出的词进行词性标注(Part-of-Speech,POS Tagging)。LQL技术 能对该被切分和被词性标注的中文文本,作进一步分析,以提取所需的知识。

根据本发明的一个方面,提供了一种使用语言查询的文本分析系统,所 述系统包括:

文本内容输入模块,用于输入中文文本于所述的文本分析系统;

中文分词模块,用于对该中文文本进行词的切分;

词性标注模块,用于对该被切分出的词,标注上词性标签;

应用词典数据库,包括一个或多个应用词典,该应用词典包括一个或多 个关键词;

语言查询语言(LQL)规则数据库,用于储存一个或多个LQL规则,其 中,该LQL规则的设定包括:

定义被提取的知识在该中文文本中的位置(Extraction Position);

定义覆盖范围(Coverage),该覆盖范围是一个句子,一个段落或一个文 档;

定义一个或多个匹配条件(MatchCriteria),该匹配条件是短语列表(Phrase  List)或具有特定词性标注的词(WORD POS);

定义匹配模式(MatchPattern),该匹配模式是用于定义匹配条件,当该 匹配条件是短语列表时,其匹配模式是一个档案名称,该档案名称指向在该 应用词典内的一个或多个关键词,当该匹配条件是该具有特定词性标注的词 时,其匹配模式是词性标签;

LQL分析模块,根据该LQL规则,用于对该被切分和被词性标注的中文 文本,进行LQL分析,并提取所需的知识,其中,该LQL分析包括:

确立该LQL规则所定义的覆盖范围;

根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标 注的中文文本,找出具有该词性标签的词;

根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注 的中文文本,找出与该关键词相同的词;

当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的 被提取知识在中文文本中的位置,提取一个或多个词;

被提取知识数据库,用于储存该被提取的知识。

根据本发明的另一个方面,提供了一种使用上述系统的文本分析方法, 所述方法包括:

S1:取得中文文本;

S2:使用中文分词模块,对该中文文本进行词的切分;

S3:使用词性标注模块,对该被切分出的词,进行词性标注;

S4:在LQL分析模块,使用LQL规则,对该被切分和标注的中文文本, 进行LQL分析,以提取知识,其中,该LQL分析包括以下步骤:

确立该LQL规则所定义的覆盖范围;

根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标 注的中文文本,找出具有该词性标签的词;

根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注 的中文文本,找出与该关键词相同的词;

当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的 被提取知识在中文文本中的位置,提取一个或多个词。

根据本发明的一个方面,提供了一种使用语言查询的文本分析系统,所 述系统包括:

文本内容输入模块,用于输入该语言的文本于所述的文本分析系统;

语言分词模块,用于对该文本进行词的切分;

词性标注模块,用于对该被切分出的词,标注上词性标签;

应用词典数据库,包括一个或多个应用词典;

语言查询语言(LQL)规则数据库,用于储存一个或多个LQL规则,其 中,该LQL规则的设定包括:

定义被提取的知识在该文本中的位置(Extraction Position);

定义覆盖范围(Coverage),该覆盖范围是一个句子,一个段落或一个文 档;

定义一个或多个匹配条件(MatchCriteria),该匹配条件是短语列表(Phrase  List)或具有特定词性标注的词(WORD POS);

定义匹配模式(MatchPattern),该匹配模式是用于定义匹配条件,当该 匹配条件是短语列表时,其匹配模式是一个档案名称,该档案名称指向在该 应用词典内的一个或多个关键词,当该匹配条件是该具有特定词性标注的词 时,其匹配模式是词性标签;

LQL分析模块,根据该LQL规则,用于对该被切分和被词性标注的文本, 进行LQL分析,并提取所需的知识,其特征在于,该LQL分析包括:

确立该LQL规则所定义的覆盖范围;

根据该LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标 注的文本,找出具有该词性标签的词;

根据该LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注 的文本,找出与该关键词相同的词;

当在该覆盖范围中,该匹配条件能得到满足,根据该LQL规则所定义的 被提取知识在文本中的位置,提取一个或多个词;

被提取知识数据库,用于储存该被提取的知识。

依据本发明,以语言查询的文本分析系统包括文本内容输入模块、文本 语法分析模块、文本分词模块、词性标注模块、LQL分析模块、被提取知识 数据库、中文分词词典、LQL规则数据库、应用词典数据库、错误校正规则 数据库、错误校正模块、LQL规则输入界面、应用词典输入界面和错误校正 规则输入界面。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中 文分词指的是将汉字序列切分成一个一个单独的词。所述中文分词模块是用 于对中文文本进行词的切分,即像英文那样,使得中文句子中的每一个词之 间留有空格。所述词性标注模块便是对被切分出的词进行词性标注(POS  Tagging)。

所述中文分词词典包括术语列表,当中的术语具有词性标注和该词性标 注出现的频率。该文本分词模块和该词性标注模块便是基于该中文分词词 典、对中文文本进行词的切分和词性标注。

所述应用词典数据库包含一个或多个应用词典。每一个应用词典记载了 一系列根据特定应用的关键词。应用词典会被应用于LQL规则的设定中。

所述LQL分析模块使用LQL规则,对被切分和被词性标注的中文文本 进行分析,并从中提取所需的知识。用户能使用LQL规则输入界面,根据 不同的需要,而设定所需的LQL规则,并把LQL规则储存于LQL规则数 据库当中。该被提取的知识会被储存于被提取知识数据库当中。

该错误校正模块能使用错误校正规则,对被提取的知识作出分析,并删 除那些被错误提取的知识,从而提高知识提取的准确性。用户能使用错误校 正规则输入界面,根据不同的需要,设定错误校正规则。被设定的错误校正 规则会被储存于错误校正规则数据库当中。

根据本发明的一个方面,LQL规则设定包括:

定义被提取知识在文本中的位置(Extraction Position);

定义覆盖范围(Coverage),该覆盖范围可以是一个句子,一个段落或一 个文档;

定义匹配条件(MatchCriteria),该匹配条件可以是短语列表(Phrase List)、 具有特定词性标签的词(WORD POS)或不具有特定词性标签的词(WORD  NOT POS);

定义匹配模式(MatchPattern),该匹配模式是用于定义匹配条件,对于 Phrase List,其匹配模式可以是一个档案名称,该档案名称指向在应用词典 内的一系列关键词,对于WORD POS或WORD NOT POS,其匹配模式是 词性标签;

定义可选的条件(OptionalCriteria),用于匹配条件,并能被一般的正规 表达式所定义。

根据本发明的一个方面,所述LQL分析模块使用LQL规则,对被切分 和被词性标注的文本进行分析,该LQL分析包括:

确立LQL规则所定义的覆盖范围;

根据LQL规则的匹配条件所定义的词性标签,在该被切分和被词性标注 的文本,找出具有该词性标签的词;

根据LQL规则的匹配条件所定义的关键词,在该被切分和被词性标注的 文本,找出与该关键词相同的词;

当在该覆盖范围中,能找出具有该词性标签的词和与该关键词相同的词, 即该匹配条件能得到满足,根据该LQL规则所定义的被提取知识在中文文 本中的位置,提取一个或多个词。

根据本发明的一个方面,所述错误校正规则设定包括定义一个或多个的 数值和数值比较要求。定义该数值可以是:

定义被提取的知识是单值的或多值的;

定义被提取知识来源数目的阈值;

定义被提取知识数目的阈值;或

定义被提取知识的数目占所有被提取知识数目的百分比的阈值。

该数值比较要求是比较统计值和该数值,可以是大于、小于或者等于。

当被提取的知识不符合以上一个或多个错误校正规则,这些错误被提取 的知识会被删除。

根据本发明的一个方面,所述错误校正模块使用错误校正规则,对被切 分和被词性标注的文本进行分析,该错误校正分析包括:

对所有被提取的知识进行统计,以取得统计值;

把该统计值和该错误校正规则所定义的数值比较;

删除不符合数值比较要求的被提取的知识。

根据本发明的另一个方面,提供了一种使用语言查询的文本分析方法, 所述方法包括以下步聚:

S1:使用LQL规则输入界面,定义LQL规则;

S2:使用应用词典输入界面,定义应用词典;

S3:使用错误校正规则输入界面,定义错误校正规则;

S4:使用文本内容输入模块,取得文本;

S5:使用文本语法分析模块,对该文本进行语法分析。

S6:使用文本分词模块,对该文本进行词的切分;

S7:使用词性标注模块,对被切分出的词进行词性标注;

S8:在LQL分析模块,使用LQL规则,对已被切分和标注的中文文本, 进行LQL分析,以提取知识;

S9:把被提取的知识,储存于被提取知识数据库中;

S10:使用错误校正模块,并根据错误校正规则,删除错误被提取的知识, 以增加所述被提的知识的准确性。

本发明的优点在于,由于语言查询语言的设定很接近自然语言,而非一 般的计算机语言,所以非计算机程式员也能简单地设定语言规则语言,以提 取知识,从而减低计算机程序开发的难度,有效地降低系统开发和维护成本。 同时,被设定的语言查询语言能够被累积和储存于语言查询语言数据库,以 作为新应用的参考。此外,本发明是可以独立于文本内容的网页格式和结构, 大大增强了收集信息的范围。

根据本发明的多个方面,只需简单地更改语言查询语言和更新应用词典, 便能使用者因需要而建立不同种类的应用。例如,人物搜索,以提取人和机 构的关系;新闻搜寻系统,其能联系一篇新闻文章于一个地方;品牌估值, 以监测品牌于不同社交媒体平台的认受程度。

附图说明

通过下面的附图本领域技术人员将对本发明有更好的理解,并且更能清 楚地体现出本发明的优点。这里描述的附图仅为了所选实施例的说明目的, 而不是全部可能的实施方式并且旨在不限定本发明的范围。

图1是根据本发明的使用语言查询的文本分析系统方框图;

图2是根据本发明的一种词性标注的方法;

图3是根据本发明的使用语言查询的文本分析方法流程图;

图4是根据本发明的LQL分析方法流程图;

图5是根据本发明的错误校正分析流程图。

具体实施方式

图1示出了根据本发明的一个实施例的文本分析系统,包括文本内容输 入模块101、文本语法分析模块102、文本分词模块103、词性标注模块104、 LQL分析模块105、被提取知识数据库106、中文分词词典107、LQL规则 数据库108、应用词典数据库109、错误校正规则数据库110、错误校正模块 111、LQL规则输入界面112、应用词典输入界面113和错误校正规则输入界 面114。

该文本内容输入模块101用于输入文本内容进入LQL文本分析系统。该 文本内容可以是在互联网上或非互联网上获取的。当文本内容是在互联网上 时,该文本内容输入模块101能使用在网站上提供的应用程序界面 (Application Program Interface,API)以取得已经被API所激活的网页中的 文本。或者,使用网络搜索器以抓取(crawl)有超文本格式的网站,并抽取 有超文本格式的文本。

该文本语法分析模块102用于分析该文本内容的语法。

该文本分词模块103用于对该文本内容进行中文分词的切分。例如,一 句中文句子“冬季风暴袭菲恐夺百命”,可被切分为冬季、风暴、袭、菲、 恐、夺、百、命。

该词性标注模块104能对被切分的词进行词性标注,即每个被切分出的 词,再根据其词性,被标注上相对应的英文字母,即词性标签。例如,冬季 /t、风暴/n、袭/v、菲/j、恐/d、夺/v、百/m、命/n。t代表时间词、n代表名 词、v代表动词、j代表简称略语、d代表副词、m代表数词。

下图是根据本发明的一个词性标签一览表。当中a代表形容词、Ag代表 形语素、ad代表副形词、an代表名形词、b代表区别词等。

优选地,词性标注模块104使用维特比算法(viterbi algorithm)于词性标 注中。维特比算法是一种动态编程算法,用于找到最可能的隐藏状态序列, 该序列称为维特比路径,特别在马氏信源,或隐马尔可夫模型,能总结出被 观察到的事件序列。另一方法是使用前向算法(forward algorithm),该算法 是计算观察到事件序列的概率,也同属于概率论范围。图3是根据本发明, 使用维特比算法于词性标注的一个例子。对于句子“冬季风暴袭菲恐夺百 命”,当中各词的词性标注为冬季/t、风暴/n、袭/v、菲/j、恐/d、夺/v、百/m 和命/n。

中文分词字典107包括该术语列表和相对应的词性标注,用于对于文本 进行分词和词性标注。中文分词字典107是可以被用户定义或修改的。

所述应用词典数据库109包括至少一个应用词典。该应用词典是根据应 用所设定的,用于记载特定应用的一系列关键词。用户可使用应用词典输入 界面113,以创建,编辑或删除应用词典。根据本发明的一个实施例,在一 个品牌分析的应用中,便包括品牌分析的关键词,例如,时尚品牌(LV、 Gucci等)或行业特定术语(产品名称、型号等)。这些关键词会被用于LQL  规则设定中。下图是根据本发明的一个用于找出新闻和地区关系的应用词 典。

该LQL处理模块105能根据LQL规则,从对被切分和词性标注的文本, 提取所需的知识,并将知识储存于被提取知识数据库106当中。LQL是一种 脚本语言,类似于结构化查询语言(SQL),但LQL是能够从未经结构化的 文本资料中,提取所需资料。此外,LQL是能基于应用和用户的需要,而被 定义所得。LQL规则输入界面112用于让使用者输入LQL规则,该LQL规 则会被储存在该LQL规则数据库108。

根据本发明的一个实施例,LQL规则设定包括:

Select是选择的意思。Extraction Position是被提取知识在文本中的位置, 以数值代表。因此,Select<Extraction Position>代表选择被提取知识在文本中 的位置。

Coverage是LQL分析的覆盖范围,该覆盖范围可以是一个句子 (Sentence),一个段落(Paragraph)或一个文档(Document)。

MatchCriteria是匹配条件,该匹配条件可以是短语列表(Phrase List)、 具有特定词性标签的词(WORD POS)或不具有特定词性标签的词(WORD  NOT POS)。

MatchPattern是匹配模式,该匹配模式是用于定义匹配条件。对于Phrase  List,匹配模式可以是一个档案名称,该档案名称指向在一个应用词典内的 一系列关键词。对于WORD POS或WORD NOT POS,其匹配模式是词性 标签,如n、v、t等。

OptionalCriteria是可选的条件,应用于匹配条件,同时它能被一般的正 规表达式所定义。

以下的是一个用于找出某人说了什么的例子。

在该LQL规则中,Select<1,3>是代表选择被提取知识在文本中的位置。1 和3代表第一和第三个匹配条件(Word NOT pos不包含在内)。Sentence代 表覆盖范围是句子。[Word pos=″nr″]是找出带有人名的词,“nr”代表人名。 [Word NOT pos=″nr″]*{0-5}是在刚被找出的人名后的五个词里,不带有人名 的词,以防止多于两个人的情况出现。对于[Phrase list=″speech_word.txt″], “speech_word.txt”是一个档案名称,其指向是一个应用词典,当中包括一 系列的关键词,如提出、说、强调、指出、表示、指示、称、预计、认为、 重申、估计、预估、预测、预期,都是“说”的同义词,用于表示某人说了 什么。当在一个句子里出现具有人名的词性标签的词和所定义的关键词,即 以上的匹配条件能得到满足,该人名(第一个匹配条件)和这些关键词后的 一个或多个词(第三个匹配条件,但没有被显示出来)便会被提取出来。例 如,陈大文估计股票会涨。根据该LQL规则,“陈大文、股票、会、涨”这 四个词便从该句子中被提取出来。

以下的是一个用于分析某人国籍的例子。

Select<1,3>代表被选取的词在[Word pos=″nr″]和[Word pos=″ns″]的位置 上。Sentence代表覆盖范围是句子。[Word pos=″nr″]是找出带有人名的词。 [Word NOT pos=″nr″]*{0-5}是在刚被找出的人名后的五个词里,不带有人名 的词,以防止多于两个人的情况出现。对于[Phrase  list=″nationality_word.txt″],“nationality_word.txt”是一个档案名称,其指向 是一个应用词典,当中包括一系列的关键词,如祖籍,籍貫等。[Word pos=″ns″] 是找出有地方名称的词。当以上四个匹配条件在一个句子里都得到满足,带 有人名和地方的词便被提取。例如,王大文的祖籍是台山。“王大文”和“台 山”便被提取。

以下的便是一个用于寻找在新闻内容中发生意外的地点的例子。

Select<1,3>代表被选取的词在[Phrase list=″accidentType_word.txt″]和 [Word pos=″ns″]的位置上。Sentence代表覆盖范围是句子。[Phrase  list=″accidentType_word.txt″]是找出带有意外意思的关键词如風災,地震,海 嘯,水難等。[Phrase list=″accident_word.txt″]是找出关键词如發生於, 位置在 等。[Word pos=″ns″]是找出有词性标签为地名的词(ns)。当以上三个匹配条 件在一个句子里都得到满足,带有意外意思的关键词和该地名便被提取。例 如,風災發生於菲律宾。“風災”和“菲律宾”便被提取。

以下的便是其中一个用于品牌分析的例子。

该LQL规则是:[品牌名称]+[新系列/新产品]+[新产品名称]。[品牌名 称]是一个应用词典,其包括一系列品牌的名称。[新系列/新产品]是一个应 用词典,其包括一系列在品牌名称前缀的关键词,如新系列。[新产品名称]是 需要被找出的产品名称。

该LQL规则是:

Select<3> 代表被选取在product_prefix.txt中的关键词之后的词。Sentence 代表覆盖范围是句子。[Phrase list=″brand_name.txt″]是找出brand_name.txt 所指向有关品牌名称的关键词。[Phrase list=″product_prefix.txt″]是找出 product_prefix.txt所指向有关品牌名称前缀的关键词。当以上两个匹配条件 在一个句子里都得到满足,新产品名称便被提取。例句,GUCCI“新系列 竹節包”2011新款只有這裡有。“竹節包”会被提取为新产品名称。

在很多时候,多个答案被提取,但当中只有一个或数个是正确的。错误 校正模块111能根据错误校正规则,删除一些被错误提取的知识。错误校正 规则输入界面114用于让使用者设定和输入错误校正规则。错误校正规则能 被储存于错误校正规则数据库110中。此外,该错误校正模块111能对被提 取的知识进行统计,以取得统计值。

下图示出一个用于寻找一个人的出生日期的例子。

该错误校正规则为:

答案只有一个,即为单值(因为一个人的出生日期只有一个);

被提取知识的来源数目需要大于3个(例如,在三个以上不同的网站中, 获得该被提取的知识);

被提取知识的数目占所有被提取知识数目的百分比需要大于70%。

在此,3个和70%为该错误校正规则中定义的数值。“大于”便是该错误 校正规则中定义的数值比较要求。因此,3个和70%也可称为阀值。图中的 数目为这些被提取的知识的统计值。只有06/07/1951符合以上的数值比较要 求,因为它的被提取知识的来源数目(该统计值为6)大于3和它的被提取 知识的数目占所有被提取知识数目的百分(该统计值为88%)比也大于70%, 因此被选为正确的答案。其他两个选择,07/06/1951和06/07/1952被删除。

下图示出一个用于寻找发生地震意外的地方的例子。

该错误校正规则为:

答案可以有多个,即为多值(因为在同一个时段可以发生多个地震);

被提取知识的来源数目需要大于3个;

被提取知识的数目占所有被提取知识数目的百分比需要大于20%。

在此,3个和20%为该错误校正规则中定义的数值。“大于”便是该错误 校正规则中定义的数值比较要求。因此,3个和20%也可称为阀值。只有四 川汶川和青海玉樹符合以上数值比较要求,因此被选为正确的答案。四川雲 川只有一个文本来源和被提取知识的数目占所有被提取知识数目的百分比 只有2%,因此被删除。

下图示出一个用于寻找新产品名称的例子。

该错误校正规则为:

答案可以有多个,即为多值(因为能同时有多个新产品);

被提取知识的来源数目需要大于3个;

被提取知识的数目占所有被提取知识数目的百分比需要大于20%。

在此,3个和20%为该错误校正规则中的阀值。竹節包和罪爱暗流符合 以上的数值比较要求,因此被选为正确的答案。但最爱暗流因未能满足以上 的要求,因此被删除。

根据本发明的另一个方面,提供了一种使用语言查询的文本分析方法, 如图3所示,所述方法包括以下步聚:

S301:使用LQL规则输入界面,定义LQL规则;

S302:使用应用词典输入界面,定义应用词典;

S303:使用错误校正规则输入界面,定义错误校正规则;

S304:使用文本内容输入模块,取得文本内容;

S305:使用文本语法分析模块,对该文本进行语法分析。

S306:使用文本分词模块,对该文本进行词的切分;

S307:使用词性标注模块,对被切分出的词,进行词性标注;

S308:在LQL分析模块,使用LQL规则,对已被切分和标注的文本, 进行LQL分析,以提取知识;

S309:把被提取的知识,储存于被提取知识数据库中;

S310:使用错误校正模块,并根据错误校正规则,删除错误被提取的知 识,以增加所述被提取知识的准确性。

在步聚S308中,如图4所示,该LQL分析包括以下步聚:

S401:确立LQL规则所定义的覆盖范围;

S402:根据LQL规则的匹配条件所定义的词性标签,在该被切分和被词 性标注的文本,找出具有该词性标签的词;

S403:根据LQL规则的匹配条件所定义关键词,在该被切分和被词性标 注的文本,找出与该关键词相同的词;

S404:当在该覆盖范围中,该匹配条件能得到满足,根据LQL规则所定 义的被提取知识在文本中位置,在该被切分和被词性标注的文本,提取一个 或多个词。

在步聚S310中,如图5所示,该错误校正分析包括以下步聚:

S501:对被提取的知识进行统计,以取得统计值;

S502:把该统计值和该错误校正规则所定义的数值比较;

S503:删除不符合数值比较要求的被提取的知识。

根据本发明的以语言查询的文本分析方法和系统,除了中文以外,也可 适用于其他语言,如英语、德语、日语、韩语等,只需要使用合适的分词模 块和词性标注模块便可。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发 明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来 实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技 术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出 来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘 等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器, 或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方 法。

尽管已经示出和描述了本发明,本领域的技术人员可以理解的是,在不 偏离本发明的原理和精神的前提下,可以在本实施例中进行改变,本发明的 范围由所附权利要求及其等价物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号